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f-* (57) Abstract: The invention relates to procedures and methods for administering and transferring data within multi-dimensional 
systems consisting of transmitters and receivers. The division of a data stream into several independent branches and the subsequent 
combination sequential collection of the individual branches to form a data stream can be carried out in a simple manner. The 
individual data streams are re-combined in a correct time sequence. Said inventive method is particularly useful for processing 

Ore -entrant codes and is suitable for configurable architectures wherein efficient control of the configuration and reconfiguration is 
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(57) Zusam men fassung: Die Erfindung beschriebt Verfahren und Methoden zur Verwaltung und zum Transfer von Daten innerhalb 
von mehrdimensionalen Anordnungen von Sendern und Empfangern. Das Aufteilen eines Datenstromes in mehrere unabhangige 
Zweige und das nachfolgende Zusammenfassen dereinzelnen Zweige zu einem Datenstrom soli einfach durchfuhrbar sein, wobei die 
einzelnen Datenstrome in der korrekten zeitlichen Reihenfolge wieder zusammengefasst werden. Insbesondere zur Abarbeitung von 
reentrantem Code ist dieses Verfahren von besonderer Wichtigkeit. Das beschriebene Verfahren ist insbesondere fur konfigurierbare 
Architekturen geeignet, die effiziente Steuerung der Konfiguration und Rekon figuration findet besondere Beachtung. 
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Titel: Verfahren und Vorrichtungen zur Datenbe- und/oder 
Verarbeitung 
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Beschreibung 

Die Erf indung beschriebt Verfahren und Methoden zur Verwal- 
tung und zum Transfer von Daten innerhalb von mehrdimensiona 

20 len Anordnungen von Sendern und Empfangern. Das Aufteilen ei 
ries Datenstromes in mehrere unabhangige Zweige und das nach- 
folgende Zusammenfassen der einzelnen Zweige zu einem Daten-- 
strom soli einfach durchfuhrbar sein, wobei die einzelnen Da 
tenstrorrte in der korrekten zeitlichen Reihenfolge wieder zu- 

25 sammengefasst werden. Insbesondere zur Abarbeitung von reen- 
tranteitv Code ist dieses Verfahren von besonde'rer Wichtigkeit 
Das beschriebene Verfahren ist insbesondere fur konfigurier- 
bare Architekturen geeignet, die- effiziente Steuerung der 
Konf iguration und .Rekonf iguration findet besondere • Beachtung 

30 

Aufgabe der Erf indung ist es, Neues fur die gewerbliche Nut- 
zung bereitzustellen. 
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Die Losung der Aufgabe wird unabhangig beansprucht . Bevorzug- 
te Ausfuhrungsf ormen befinden sich in den Unteranspruchen. 

Unter einer rekonf igurierbaren Architektur werden vorliegend 
Bausteine (VPU) mit konf igurierbarer Funktion und/oder Ver- 
netzung verstanden, insbesondere integrierte Bausteine mit 
einer Mehrzahl von ein- oder mehrdimensional angeordneten 
arithmetischen und/oder logischen und/oder analogen und/oder 
speichernden und/oder intern/extern vernetzenden Baugruppen, 
die direkt oder durch ein Bussystem miteinander verbunden 
sind. 

Zur Gattung dieser Bausteine zahlen insbesondere systolische 
Arrays, neuronale Netze, Mehrprozessor Systeme, Prozessoren 
mit mehreren Rechenwerken und/oder logischen Zellen und/oder. 
kommunikativen/peripheren Zellen (10) , Vernetzungs- und Netz- 
werkbausteine wie z.B. Crossbar-Schalter , ebenso wie bekannte 
Bausteine der Gattung FPGA, DPGA, Chameleon, XPUTER, etc., 
Hingewiesen wird insbesondere in diesem Zusammenhang auf die 
folgenden Schutzrechte und Anmeldungen desselben Anmelders: P 
44 16 881.0-53, DE 197 81 412.3," DE 197 81 483.2,. 
DE 196 54 846.2-53, DE 196 54 593.5-53, DE 197 04 044.6-53, 
DE 198 80 129.7, DE 198 61 088,2-53., DE 199 80 312.9, 
PCT/DE 00/01869, DE 100 36 627.9-33, E)JE 100 28 397.7, 
DE 101 10 530.4, DE 101 11 014.6, PCT/EP 00/10516, . 
EP 01 102 674.7, PACT02, PACT04, PACT05, PACT 08 , PACT 10., 
PACT11, PACT13, PACT21, PACT13, PACTlSb, PACT18 (a) , 
PACT25(a,b). Diese sind hiermit zu Of f enbarungszweqken . 
vollumf anglich eingegliederf. 

Die o.g. Architektur wird beispielhaft zur Verdeutlichung 

herangezogen und im folgenden VPU genannt. Die Architektur 

besteht aus beliebigen arithmetischen, logischen (auch Spei- 

2 
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cher) und/oder Speicherzellen und/oder Vernetzungszellen 
und/oder kommunikativen/peripheren (10) Zellen (PAEs) , die zu 
einer ein- oder mehrdimensionalen Matrix (PA) angeordnet sein 
konnen, wobei die Matrix unterschiedliche beliebig ausgestal- 
5 tete Zellen aufweisen kann, auch die Bussysteme werden dabei 
als Zellen verstanden. Der Matrix als ganzes oder Teilen da- 
von zugeordnet ist eine Konf igurationseinheit (CT) , die die 
Vernetzung und Funktion des PA beeinf luftt . 

10 

Beschreitmng- der Erfindung 

Die konf igurierbaren Zellen einer VPU mussen zur korrekten 
Verarbeitung von Daten miteinander synchronisiert werden. Da- 
zu dienen zwei unterschiedliche Pro'tokolle, eines zur Syn- 

15 chronisation des Datenverkehrs und ein weiteres zur Ablauf- 
steuerung der Datenverarbeitung. Daten werden bevorzugt uber 
eine Mehrzahl konf igurierbarer Bussysteme iibertragen. Konfi- 
gurierbare Bussysteme bedeutet insbesondere, dass beliebige 
PAEs Daten senden und die Verbindung zu den Empf anger -PAEs, 

20 sowie insbesondere die Empf anger-PAEs beliebig konf igurierbar 
sind. 

Die Synchronisation des Datenverkehrs erfolgt bevorzugt durch 
Handshake-Protokolle, die mit den Dateyi libertragen werden. In 
25 der nachf olgehden Beschreibung werden einfache Handshakes so- 
wie komplexe Verfahren beschrieben, deren bevorzugte Anwen- 
dung von der jeweilig auszuf uhrenden Applikation oder Appli- 
kationsmenge abhangig ist. 

30 Die Ablaufsteuerung erfolgt durch Signale (Trigger) die den 
Status einer PAE anzeigen. Trigger konnen unabhangig von den 
Daten uber frei konf igurierbare Bussysteme gefuhrt werden, 
d.h. konnen unterschiedliche Sender und/oder Empfanger besit- 
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zen und weisen bevorzugt ebenfalls Handshake-Protokolle auf . 
Trigger werden durch einen Status einer sendenen PAE gene- 
riert (z.B. Zero-Flag, Overflow-Flag, Negativ-Flag) , indem 
einzelne Zustande oder Kombinationen weitergeleitet werden. 

5 

Datenverarbeitende Zellen (PAEs) innerhalb einer VPU konnen 
verscheidene Verarbeitungszustande annehmen, die vom Konfigu- 
rationszustand der Zellen und/oder eintref f enden oder einge- 
troffenen Triggern abhangen: 
10 „not configured" : 

Keine Datenverarbeitung 
„conf igured" : 

GO alle eintref f enden Daten werden berechnet. 

STOP eintref fende Daten werden nicht berechnet. 
15 STEP genau eine Berechnung wird durchgef iihrt . 

GO, STOP und STEP werden durch im folgenden beschriebene 
Trigger ausgelost. 

20 Handshake Synchronisation 

Ein besonders einfaches und dennoch sehr leistungsf ahiges 
. Handshake-Protokoll, das bevorzugt bei der Ubertragung von 
Daten und Triggern Anwendung findet, wird nachfolgend be- 
schrieben. Die Steuerung der Handshak^-Protokolle ist bevor- 
25 zugt f est in der Hardware vorgegeben und kann einen wesentli- 
chen Bestandteil des Datenverarbeitungparadigmas einer' VPU 
darstellen. Die Grundlagen dieses Protokolles sind bereits in 
PACT 02 beschrieben. 

Mit jeder von einem Sender uber einen beliebigen Bus gesende- 
30 ten Information -wird. ein RDY-Signal mitgesendet f das die GUI-., 
tigkeit der Information anzeigt. 
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Der Empfariger verarbeitet nur Inf ormationen die mit einem 
RDY-Signal. versehen sind, alle anderen Inf ormationen werden 
ignoriert . 

Sobald die Inf ormationen vom Empf anger verarbeitet wurden und 
5 der Empfanger neue Inf ormationen entgegennehmen kann, zeigt 
er durch senden eines Quittierungssignales (ACK) dem Sender 
an, dafi dieser nehe Inf ormationen absenden darf . Der Sender 
wartet immer auf das Eintreffen von ACK, bevor er erneut Da- 
ten absendet. 

10 Es wird zwischen zwei Betriebsarten unterschieden: 

a) „dependend" : Alle Eingange, die Inf ormationen entgegenneh- 
men mussen ein gultiges RDY besitzen bevor die Information 
verarbeitet wird. Erst dann wird das ACK generiert. 

b) ^independent" : Sobald ein Eingang, der Inf ormationen ent- 
15 gegennimmt ein gultiges RDY besitzt, wird fur diesen bestimm- 

ten Eingang eiri ACK generiert, sofern der Eingang Daten ent- 
gegennehmen kann, d.h. die vorhergegangenen Daten verarbeitet 
wurden; an'spnsten wird auf die Verarbeitung der Daten gewar- 
tet. 

20 Die Durchfiihrung der Synchronisation und die Steuerung der 

Datenverarbeitung kann nach dem Stand der Technik durch eine 
fest implementierte Statemachine (siehe PACT 02 ) , durch eine 
feingranular konf igurierte Zustandsmaschihe (siehe PACT01, 
PACT04) oder vorzugsweise durch einen ^rograrnmierbaren Se- 

25 quenzer (PACT13) erf olgen. ■ Die programmierbare Statemachine 
wird entsprechend des auszuf uhrenden Ablaufes konf iguriert . 
Der Baustein EPS.448 von Altera (ALTERA Data Book 1993) reali- 
siert beispielsweise einen derartigen programmierbaren Se- 
quenzer. 

30 

Eine besondere Aufgabe von Handshake-Protokolle fur VPUs ist 
die Durchfiihrung einer pipeline-artigen Datenverarbeitung, 
bei welcher insbesondere in jedem Taktzyklus Daten in jeder 
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PAE verabeitet werden konnen. Diese Forderung fuhrt zu beson- 
deren Anspriichen an die Funktionsweise von Handshakes. Am 
Beispiel eines RDY/ACK Protokolls wird die Problemstellung 
und Losung dieser Aufgabe aufgezeigt: 

Figur la zeigt einen Aufbau einer Pipeline innerhalb einer 
VPU. Die Daten werden fiber (vorzugsweise konf igurierbare) 
Bussysteme (0107/ 0108, 0109) an Register (0101, 0104) ge- 
ftthrt, denen eine ggf. datenverarbeitende Logik (0102, 0105) 
nachgeschaltet ist. Dieser ist eine Ausgabestufe (0103, 0106) 
zugeordnet, die bevorzugt wieder ein Register enthalt, urn die 
Ergebnisse wieder auf einen Bus auf zuschalten. Sowohl uber 
die Bussysteme (0107, 0108, 010 9) als auch durch die daten- 
verarbeitende Logik wird bevorzugt (0102, 0105) das RDY/ACK 
Protokoll zur Synchronisation ubertragen. 

Zwei Semantiken kommen fur das RDY/ACK Protokoll in Frage: 

a) ACK bedeutet "Erapf anger wird Daten ubernehmen", mit dem 
Effekt, dass die Pipeline in jedem Takt arbeitet. Es entsteht 
jedoch das Problem, dass aufgrund der hardwaretechnischen 
Realisierung im Fall eines Pipeline-Stall das ACK asynchron 
uber alle angehalteneh Stuferi der Pipeline lauft. Dies fuhrt 
zu erheblichen Problemen beim Zeitverhalten, insbesondere bei 
grolien VPUs und/oder hohen Taktf requenzen. 

b) ACK bedeutet "Empf anger hat Daten u.bernommen" , mit dem Ef- 
fekt, dass das ACK immer jeweils nur bis zur nachsten Stufe 
lauft und dort ein Register vorhanden ist. Das dadurch ent- 
stehende Problem ist, dass die Pipeline aufgrund der Verzoge- 
rung des in der hardwaretechnischen Realisierung notwendigen 
Registers nur noch in jedem. zweiten Takt arbeitet. 

Die Losung der Aufgabe liegt in der. Kombination beider Seman- 
tiken wie in Figur lb dargestellt, die die Stufen 0101 bis 

0103 ausschnittsweise verdeutlicht . Auf den Bussystemen 

6 
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(0107, 0108, 0109) wird das Protokoll b) verwendet, indem ein 
Register (0110) das eintreffende RDY mit dem Einschreiben der 
iibertragenen Daten in ein Eingangsregister urn einen Takt ver- 
zogert und als ACK wieder auf den Bus weiterleitet . Diese 
5 Stufe (0110) arbeitet quasi als Protokollkonverter zwischen 
einem Busprotokoll und dem Protokoll innerhalb einer daten- 
verarbeitenden Logik. 

Die datenyerarbeitende Logik verwendet das Protokoll a) . Die- 
ses wird erzeugt durch einen nachgeschalteten Protokollkon- 

10 verter (0111) . Das besondere an 0111 1st, dass eine Voraussa- 
ge getroffen werdeh muss, ob die eintref f enden Daten von der 
datenverarbeitenden Logik auch tatsachlich vom Bussystem ab- 
genommen werden.. Dies wird dadurch gelost, dass ein zusatzli- 
ches Puf f erregister (0112) in den Ausgangsstuf en (0103, 0106) 

15 fur die auf das Bussystem zu ubertragenden Daten eingef uhrt 
wird. Die durch die datenverarbeitende Logik generierten Da- 
ten werden zugleich an das Bussystem und in das Pufferregi- 
ster geschrieben. Kann der Bus die Daten nicht abnehmen, d.h. 
das ACK des Bussystems bleibt aus, sind die Daten im uPffer- 

20 register vorhanden und werden sobald das Bussystem bereit ist 
tiber einen Multiplexer (0113) auf das Bussystem geschaltet. 
Ist das Bussystem sofort. zur Abnahme der Daten bereit, werden 
die Daten tiber Multiplexer (0113) den direkt auf den Bus wei- 
tergeleitet. Das Puf f erregister ermogj^icht die Quittierung 

25 mit der Semantik a) , da so lange mit "Empf anger wird Daten 
ubernehmen" quittiert werden kann, wie das Puf f erregister 
leer ist, da durch das Einschreiben in das Puff erregister si- 
chergestellt ist, dass die Da[ten nicht verloren gehen. 

30 

Trigger 

In VPU Bausteinen werden zur Obertragung einfacher Informa- 

tionen sogenannte Trigger verwendet, deren Grundlagen in 

7 
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PACT08 beschrieben sind. Trigger werden mittels eines in Seg- 
mente aufgeteilten ein- oder mehrdimensionalen Bussystems 
. iibertragen. Die einzelnen Segmente konnen mit Treibern zur 
Verbesserung der Signalqualitat ausgestattet sein. Die jewei- 
5 ligen Triggerverbindungen, die uber eine Verschaltung mehrere 
Segmente realisiert wird, wird vom Anwender prograiratiiert und 
iiber die CT konf iguriert . 

Trigger iibertragen beispielsweise vor allem, jedoch nicht 
aus-schlieiilich, die nachf olgenden Inf ormationen oder beliebi- 
10 ge Kombinationen dieser 

* Statusinformationen von Rechenwerken (ALUs), z.B. 

- Carry 

- Division by Zero 

- Zero 

15 - Negativ 

- Under-/Overf low 

* Ergebnisse von Vergleichen und/oder Schleifen 

* n-bit Inf ormationen (fur kleine n) 

* Interruptanf orderungen, die intern oder extern gene- 
20 riert werden 

Trigger werden von beliebigen Zellen generiert und werden 
durch beliebige Ereignisse in den einzelnen Zellen angesteu- 
ert. Insbesondere konnen Trigger von egLner CT oder einer ex- 
25 ternen Einheit, die aulierhalb des Zellarrays oder des Bau- 
steines. generiert werden. 

Trigger werden von beliebigen Zellen empfangen und auf belie- 
bige Art ausgewertet. Insbesondere konnen Trigger von einer 
CT oder einer externeh Einheit, die aulierhalb des Zellarrays 
30 oder des Bausteines ausgewertet werden. 

Trigger dienen hauptsachlich der Ablauf steuerung innerhalb 
einer VPU, beispielsweise fur Vergleiche und/oder Schleifen.. 
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Datenpfade und/oder Verzweigungen konnen durch Trigger frei- 
geschaltet (enabled) oder gesperrt (disabled) werden. 
Ein weiterer wesentlicher Einsatzbereich von Triggern ist das 
Synchronisieren und Ansteuern von Sequenzern, sowie deren In- 
5 formationsaustausch; ebenso wie die Steuerung der Datenverar- 
beitung in den Zellen. 

Die Verwaltung von Triggern und die Steuerung der Datenverar- 
beitung kann nach dem Stand der Technik durch eine fest im- 
plementierte Statemachine (siehe PACT02, PACT08), durch eine 

10 feingranular konf igurierte Zustandsmaschine (siehe PACT01, 
PACT04, PACT08, [Chameleon]) oder vorzugsweise durch eine 
programmierbare Statemachine (PACT13) erfolgen. Die program- 
mierbare Statemachine wird entsprechend des auszuf iihrenden 
Ablaufes konf iguriert . Der Baustein EPS448 von Altera [ALTERA 

15 Data Book 1993] realisiert beispielsweise einen derartigen 
programmierbaren Sequenzer. 

Gmndver £ ahr en 

20 Die einfachen Synchronisationsverf ahren mit Rdy/Ack Protokol- 
len erschweren die Verarbeitung von komplizierten Datenstro- 
men, da der Aufwand zur Einhaltung der korrekten Reihenfolge 
sehr hoch ist. Die korrekte Implementierung ist Aufgabe des 
Programmierers . Weiterhin werden zusatzliche Ressourcen fur 

25 die Implementierung benotigt. 

Im Folgenden wird ein einf aches Verf ahren beschrieben, das 
diese Aufgabe lost. 

Obertragung l:n 

m 30 Dieser Fall ist trivial: Der Sender schreibt die Daten auf 

den Bus. Die Daten liegen so lange stabil am Bus an, bis das 
ACK. als Quittierung von alien Empfangern eingetrof fen ist 
(die Daten „stehen" ) . RDY wird gepulst, d.h. liegt genau fur 
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einen Takt an, damit die Daten nicht f alschlicherweise mehr- 
fach gelesen werden. Sofern das RDY implementierungsabhangig 
Multiplexer und/oder' Tore und/oder weitere geeignete Ubertra- 
gungselemente ansteuert, die den Datentransf er steuern, wird 
5 diese Ansteuerung fur den Zeitraum der Datenubertragung ge- 
speichert (RdyHold) . Dies bewirkt dass die Stellung der Tore 
und/oder Multiplexer und/oder weitere geeignete Ubertragungs- 
elemente auch nach dem RDY-Puls gultig bleibt und damit wei- 
terhin gultige Daten auf dem Bus anliegen. 

10 Sobald ein Empf anger die Daten ubernommen hat, quittiert er 
mittels eines ACK (vgl. PACT02) . Es soli nochmals erwahnt 
werden, dass die korrekten Daten bis zur Abnahme durch den 
oder die Empf anger auf dem Bus anliegen. ACK wird vorzugswei- 
se ebenfalls als Puis ubertragen. Durchlauft ein ACK einen 

15 Multiplexer und/oder Tor und/oder ein weiteres geeignetes 

Obertragungselement, in welchen das RDY zuvor zur Speicherung 
der Ansteuerung diente (s. RdyHold), wird diese Ansteuerung 
nunmehr geloscht. 

Zur Ubertragung von l:n ist es sinnvoll das das ACK so lange 
20 zu halten, d.h." kein gepulstes ACK zu verwenden, bis ein neu- 
es RDY eintrifft, d.h. das ACK „steht" ebenfalls. An jedem 
Busknoten, welcher eine Verzweigung zu mehreren Empfangern 
darstellt, werden die eintref f enden ACKs miteinander verundet 
(AND) . Da die ACKs „stehen^ ergibt sigji letzendlich ein „ste- 
25 hendes" ACK beim Sender, das die ACKs aller Empf anger repra- 
sentiert. Urn die. Laufzeit der ACK-Kette durch die UND-Gatter 
moglichst gering zu halten, wird empfohlen eine baumformige 
?usstruktur zu wahlen, bzw. wahrend des Routings des abzuar- 
beitenden Programmes- zu erzeugen. 
30 Stehende ACKs konnen nunmehr implementierungsabhangig zu dem 
Problem fdhren,* dass RDY Signale geACKt werden, fur die ei- 
gentlich kein ACK vorlag, da ein altes ACK zu lange stand - 
Eine Losung dafiir ist, ACK grundsatzlich zu pulsen und das 
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eintref f ende ACK jedes Zweiges an einer Verzweigung zu spei- 
chern. Erst wenn die ACKs aller Zweige eintrafen wird ein 
ACK-Puls in Richtung Sender weitergeleitet und gleichzeitig 
alle gespeicherten ACKs (AckHold) und ggf. die RdyHold ge- 
5 loscht. 

Figur lc zeigt die Grundlagen des Verfahrens. Ein Sender 0120 
versendt Dateri iiber ein Bussystem 0121 zusammen mit einem RDY 
0122. Mehrere Empfanger (0123, 0124/0125, 0126) erhalten die 
10 Daten und das dazugehorenden RDY (0122) . Jeder Empfanger ge- 
neriert ein ACK (0127, 0128, 0129, 0130), die jeweils iiber 
eine geeignete boolsche Logik (0131, 0132, 0133) z.B. eine 
logische UND-Funktion verknupft und an den Sender geleitet 
werden (0134) . 

15 

Figur lc zeigt eine mogliche bevorzugte Ausgestaltung mit 2 
Empfangern (a, b) . Eine Ausgabestufe (0103) versendet . Daten 
und das zugeordnete in diesem Beispiel gepulste RDY (0131) . 
RdyHold-Stufen (0130) vor den Ziel-PAEs ubersetzen das gepul- 

20 ste RDY in ein stehendes RDY. Ein stehendes RDY soil in die- 
sem Beispiel den boolschen Wert b'l aufweisen. Die Inhalte 
samtlicher RdyHold-Stuf en werden iiber eine Kette logischer 
ODER-Funktioneri (0133) an 0103 zuruckgef iihrt . Bestatigt eine 
Ziel-PAE die Annahme der Daten, wird l.ediglich durch das ein- 

25 treffende ACK (0134) die jeweils entsprechende 'RdyHold-Stuf e 
zuruckgesetzt . Die Semantik des zuruckgef tihrten Signals lau- . 
tet .somit, b'l. === "irgendeine PAE hat die Dateri nicht abgenom- 
men". Sobald alle RdyHold-Stuf en zuruckgesetzt sind, gelangt* 
uber die ODER-Kette (0133) die Information b'O = "alle PAEs 

30 haben die Dateri abgenommen" an 0103, was als ACK gewertet 
wird.. Die Ausgange (0i32) der RdyHold-Stuf en konnen wie be- 
reits beschrieben zur Ansteuerung von Busschaltern mitverwen- 
det werden. 
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Deiu letzten Eingang einer ODER-Kette wird ein logischen b'O 
auf geschaltet , damit die Kette ordentlich f unktioniert . 

Ubertragung n:l 

5 Dieser Fall ist vergleichsweise komplex. (Fl) Einerseits mus- 
. sen mehrere Sender auf einen Empf anger gemultiplext werden, 
(F2) andererseits mufi zumeist auch die zeitliche Reihenfolge 
der Senduhgen eingehalten werden. Nachfolgend werden mehrere 
Verfahren zur Losung der Aufgabe beschrieben. Es soil darauf 
10 hingewiesen werden, daii kein Verfahren gfundsatzlich zu be- 
vorzugen ist. Vielmehr ist je nach System und auszuf uhrenden 
Algorithmen das jeweils aus Sicht der Programmierbarkeit, des 
Aufwands und der Kosten am besten Geeignete zu wahlten. 

15 Eine einfache n:l Ubertragung kann dadurch realisiert werden, 
dass. jeweils mehrere Datenpfade auf die Eingange von PAEs ge- 
fuhrt werden. Die PAEs werden als Multiplexerstuf en konfigu- 
riert. Eingehende Trigger steuern den Multiplexer und selek- 
tieren jeweils einen der Mehrzahl von Datenpfaden. Sofern er- 

20 * f orderlich, konnen Baumstrukturen aus als Multiplexer konf i- 
gurierten PAEs aufgeba*ut werden urn eine Vielzahl von Daten- 
strome (grosse n) zusammenzuf uhren. Das Verfahren erfprdet 
die besondere Aufmefksamiceit des Programmierers urn die unter- 
schiedlichen Datenstrome zeitlich korr;ekt zu' sortieren. Ins- 

25 besondere sollten alle Datenpfade dieselbe Lange und/oder 

Verzogerung aufweisen, urn die korrekte Reihenfolge der Daten' 
zu gewahrleisten. 

Leistungsfahigere Zusammenf uhrungsmethoden werden nachfolgend 
30 beschieben:- 

Da Fl zunachst trivial durch einen beliebigen Arbiter mit 
nachgeschaltetem Multiplexer losbar scheint/ soli die Uberle- 
gung mit F2 begbnnen werden. ' 

12 
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Die Einhaltung der zeitlichen Reihenfolge ist mit einfachen 
Arbitern nicht moglich. Figur 2 zeigt ein erstes mogliches 
Implementierungbeispiel . Ein FIFO (0206) wird verwendet, um 
5 die zeitliche Reihenfolgen von Ubertragungsanf orderungen auf 
ein Bussystem (0208) korrekt abzulegen und abzuarbeiten. 
Hierzu wird jedem Sender (0201, 0202, 0203, 0204) eine ein- 
deutige Nuramer zugeordnet, die seine Adresse darstellt. Jeder 
Sender fordert eine Datenubertragung auf das Bussystem 0208 

10 an, indem er seine Adresse auf einem Bus (0209, 0210, 0211, 

0212) anzeigt. Die jeweiligen Adressen werden ttber einen Mul- 
tiplexer (0205) in einem FIFO (0206) entsprechend der Reihen- 
folge der Sendeanf orderungen gespeichert. Das FIFO wird 
schrittweise abgearbeitet und. die Adresse des jeweiligen FI- 

15 FO-Eintrages wird auf einem weiteren Bus (0207) angezeigt. 

Dieser Bus adressiert die Sender und. der Sender mit der ent- 
sprechenden passenden Adresse erhalt den Zugriff auf den Bus 
0208. Fur. ein derartiges Verfahren konnen beispielsweise die 
internen Speicher der VPU Technologie als FIFO verwendet wer- 

20 den (vgl. PACT04, PACT 13) . 

Bei naherer Betrachtung entsteht jedoch folgendes Problem: 
Sobald mehrer Sender gleichzeitig auf den Bus zugreifen wol- 
len, muli ein Sender . ausgewahlt werden //% dessen Adresse dann in 

25 das FIFO gespeichert wird. Im nachsten Takt wird dann der 

nachste Sender ausgewahlt usw.. Die Auswahl kann durch einen 
Arbiter (.0205) erfolgen. Dadurch wird die Gleichzeitigkeit 
aufgelost, was- jedoch zumeist kein Problem darstellt. Fur 
Realtime-Anwendungen konnte ein priorisierender Arbiter ver- 

30 wendet werden. Das Verfahren scheitert jedoch an einer einfa- 
chen Uberlegung: ' Zum Z.eitpunkt t fordern drei Sender S1,S2 
und S3 den Empf anger. E an. Bei t wird- SI, bei t+1 wird S2 und 
bei t+2 wird S3 gespeichert. Bei t+1 fordert jedoch S4 und 
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S5, bei t+2 zusatzlich S6 und wieder SI den Empf anger an. Da 
nun neue Anf orderungen mit Alten uberlappen, wird die Abar- 
beitung sehr schnell aufierst komplex und erfordert einen er- 
heblichen zusatzlichen Hardwareaufwand. 
5 Somit ist das in Figur 2 beschriebene Verfahren bevorzugt fur 
einfache n:l Ubergange die nach Moglichkeit keine gleichzei- 
tigen Busanf orderungen aufweisen anzuwenden. 

Nach dieser Uberlegung scheint es sinnvoll nicht einen Sender 
10 je Takt zu speichern, sondern die Menge aller Sender, die zu 
einem bestimmten Takt' die Ubertragung ianfordern. Zum jeweils 
darauf folgenden Takt wird dann die jeweils neue Menge gespei- 
chert. Sofern mehrere Sender zum gleichen Takt die Ubertra- 
gung anfordern, werden diese bei der Abarbeitung des Spei- 
15 chers arbitriert. 

Das Speichern mehrerer Senderadressen zugleich ist jedoch 
ebenfalls sehr aufwendig. Eine einfache Realisierung wird 
durch folgende Ausfuhrung in. Figur 3 erreicht: 

•• Ein zusatzlicher Zahler (REQCNT, 0301) zahlt die Zahl 
20 der Takte T. Jeder Sender . (0201, 0202, 0203 f 0204), der 

beim Takt t die Ubertragung anf ordert , speichert ■ den 
Wert von REQCNT (REQCNT (t) ) beim Takt t als- seine Adres- 
se. 

• Jeder * Sender, der beim Takt t+1 die Ubertragung anf or- 
25 dert speichert, den Wert von REQCNT (REQCNT (t+1) ) beim 

Takt t+1 als seine Adresse. 

• 

• .Jeder Sender, der beim Takt t+n die Obertragung arifor- 
dert speichert, den Wert von REQCNT (REQCNT (t+n) ) beim 

30 Takt t+n als seine Adresse. 



14 
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Das FIFO (0206) speichert nunmehr die Werte von REQCNT(tb) 
bei einem bestimmten Takt tb. 

Das FIFO zeigt einen gespeicherten Wert von REQCNT als Sende- 
auf f orderung auf einem separaten Bus (0207) an. Jeder Sender 

5 vergleicht diesen Wert mit dem von ihm gespeicherten. Sind 
die Werte gleich sendet er die Daten. Besitzen mehrere Sender 
denselben Wert, d.h. wollen. gleichzeitig Daten ubertragen, so 
wird die Ubertragung jetzt mittels eines geeigneten Arbiters 
(CHNARB, 0302b) arbitriert und mittels eines durch den Arbi- 

10 ter angesteuerten Multiplexers (0302a) auf den Bus geschal- 
tet. Eine beispielsweise mogliche Ausgestaltung des Arbiters 
wird nachfolgend beschrieben. 

Sobald keine Sender mehr auf einen REQCNT Wert ansprechen, 
d.h. dem Arbiter liegen keine Busanf orderungen zur Arbitrie- 
15 rung mehr vor (0303) , schaltet das FIFO zum nachsten Wert 
weiter. Beinhaltet das FIFO keine gultigen Eintrage mehr 
(empty) , werden die Werte als ungultig gekennzeichnet , damit 
keine falschlichen Buszugriffe entstehen. 

In einer bevorzugten Ausgestaltung werden nur die Werte von 
20 REQCNT in den FIFO (0206) gespeichert bei denen eine Busan- 

forderung eines Senders (0201, 0202, 0203, 0204) vorlag. Dazu 

signalisiert jeder Sender seine Busanf orderung (0310, 0311, 

0312, 0313). Dieser werden logisch verknupft (0314), z.B. 

durch eine ODER-Funktion. Die entstehende Sendeanf orderung 
25 aller Sender (0315) auf ein Tor (0316) gefiihrt, das nur die 

Werte von REQCNT an das- FIFO (0206) leitet, an bei. denen tat- 

sachlich eine Busanf orderung vorlag. 

Das beschriebene . Verf ahren kann ein einer bevorzugten Ausfuh- 
30. rung entsprechend Figur 4 wie folgt weiter - optimiert werden: 
Durch REQCNT (0410) wird eine lineare Folge von Weirten 
(REQCNT (tb)) generiert, wenn statt aller TaJcte t nur die Tak- 
te gezahlt werden, in denen eine Busanf orderung eines Senders 
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(0315) existiert. Durch die von REQCNT generierte nun lucken- 
lose lineare Folge von Werten ist das FIFO durch einen einfa- 
cheri Zahler (SNDCNT, 0402) ersetzbar, der ebenfalls linear 
zahlt und dessen Wert (0403) entsprechend 0207 die jeweiligen 
5 Sender f reischaltet . Dabei zahlt SNDCNT weiter sobald kein 

Sender mehr auf den Wert von SNDCNT reagiert. Sobald der Wert 
von REQCNT gleich dem Wert von SNDCNT ist, zahlt SNDCNT nicht 
mehr weiter, da der letzte Wert erreicht ist. 

Fur samtliche Implementierungsarten gilt, dafi die maximal er- 
forderliche Breite von REQCNT gleich log 2 (Anzahl_der_Sender ) 
ist. Bei Uberschreiten des grofitmoglichen Wertes beginnt 
REQCNT und SNDCNT wieder beim minimalen Wert (fur gewohnlich. 
0) . 

Arbiter 

Eine Vielzahl von Arbitern sind nach dem Stand der Technik 
als CHNARB einsetzbar. Je nach Anwendung eignen sich besser 
priorisierte Oder unpriorisierte Arbiter, wobei priorisierte 
den Vorteil bieten, dafi sie bei Realtime-Auf gaben bestimmte 
Tasks bevorzugen kohnen. 

Im folgenden wird ein serieller Arbiter beschrieben, • der in 
der VPU-Technologie besonders einfach und resourcensparend 
implement ierbar ist. Zudem bietet der ^Arbiter den Vorteil 
priorisierend zu arbeiten, wodurch die bevorzugte Bearbeitung 
bestimmter Ubertragungen ermoglicht wird. 

Zunachst wird ein moglicher Grundaufbau eines Bus systems in 

Figur 5 beschrieben. Baust.eine der Gattung VPU besitzen ein 

. 30 Netzwerk aus parallelen Dateh-Bussystemen . (0502) , wobei jede 

PAE zur Datenubertragung mindestens Anschlufi an einen Daten- 

bus besitzt. Fur gewohnlich ist ein Netzwerk aus mehreren 

gleichwertigen parallelen Datenbussen (0502) aufgebaut, wobei 

16 
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je ein Datenbus fur eine Dateniibertragung konfiguriert sein 
kann. Die verbleibenden Datenbusse konnen fur andere Daten- 
ubertragungen zur freien Verfiigung stehen. 

5 Es soil weiterhin erwahnt werden, daI5 die Datenbusse segmen- 
tierbar sein konnen, d.h. durch Konf iguration (0521) kann ein 
Bussegment (0502) iiber Tore (G) auf das benachbarte Busseg- 
ment (0522) durchgeschaltet werden. Die Tore (G) konnen aus 
Transmission-Gates aufgebaut sein und bevorzugt Signalver- 
10 starker und/oder Register aufweisen. 

Eine PAE (0501) greift vorzugsweise iiber Multiplexer • (0503) 

oder eine vergleichbare Schaltung Daten von einem der Busse 
(0502) ab. Die Freischaltung der Multiplexeranordung ist kon- 
15 figurierbar (0504) . 

Bevorzugt werden die von einer PAE. (0510) generierten Daten 
(Ergebnisse) iiber eine ahnliche unabhangig konf igurierbare • 
(0505) Multiplexer-Schaltung auf einen Bus (0502) aufgeschal- 

tet . 

20 Die in Figur 5 beschriebene Schaltung wird mit Busknoten be- 
zeichnet. 

Ein einfacher Arbiter fur einen Busknoten kann f.ol-genderma- 
ssen, wie in Figur 6 dargestellt, implementiert sein: 

25 Durch zwei AND-Gatter (0601, 0602) kann das Grundelement 0610 
eines einfachen seriellen Arbiters aufgebaut werden .Figur 6a-. 
Das Grundelement besitzt einen Eingang (RDY, 0603) durch den 
ein Eingangsbus anzeigt, d'ass' er Daten ubertragt und eine 
Freischaltung auf den Empf angerbus anfordert. Ein weiterer 

30 Eingang (ACTIVATE, 0604) der in diesem Beispiel . durch einen 
logfischen 1-Pegel anzeigt, dafi keines der vorhergehenden 
Grundelemente aktuell den Bus arbitriert hat und somit eine 
Arbitrierung durch dieses Grundelement zulassig ist-. • Der Aus- 
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gang RDY_OUT (0 605) zeigt beispielsweise einem nachgeschalte- 
ten Busknoten an, daB das Grundelement den Buszugriff frei- 
schaltet (wenn eine Busanf orderung (RDY) besteht) und ACTIVA- 
TE__OUT (060 6) zeigt an, daB das Grundelement aktuell keine 
5 Freischaltung (mehr) durchfiihrt, da keine Busanf orderung 
(RDY) (mehr) besteht und/oder keine vorherige Arbiterstufe 
den Empfangerbus (ACTIVE) belegt hat. 

Durch die serielle Verkettung entsprechend Figur 6b von ACTI- 
10 VATE und ACTIVATE_OUT uber die Grundelemente 0610 entsteht 
ein serieller priorisierender Arbiter, "wobei das erste Grun- 
delement die hochste Prioritat besitzt und dessen ACTIVATE 
Eingang immer aktiviert ist. 

15 Durch das bereits beschriebene Protokoll ist sichergestellt , 
daB innerhalb desselben SNDCNT-Wertes jede PAE nur eine Da- 
teniibertragung durchfuhrt, da eine nachfolgende Datenubertra- 
gung einen anderen SDNCNT-Wert besitzen wiirde. Diese Bedin- 
gung ist fur eine storungsf reie Funktion der seriellen Arbi- 

20 ters erf orderlich, da damit die fur die Priorisierung notwen 
dige Abarbeitungsreihenf olge der Freischaltiingsanforderungen 
(RDY) gewShrleistet wird. Mit anderen Worten, kann eine Frei 
gabeanforderung (RDY) nicht wahrend einer Arbitrierung nach- 
traglich an Grundelementen auftreten, .^die bereits durch ACTI 

25 VATE_0UT anzeigen r daB sie keine Freischaltung eines Buszu- 
griff s ermoglichen. 

Lokalitat und Lauf zeit 

30 Grundsatzlich ist das Verfahren iiber lange Strecken hinweg 
• einsetzbar. Ab einer von der Systemf requenz abhangigen Lange 
ist die Obertragung der Daten und Ausfiihrung des Protokolls 
nicht mehr in einem Takt moglich- 
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Eine Losung ist die Datenpfade exakt gleich lang auszulegen 
und die Zusammenfuhrung an genau einer Stelle durchzuf uhren. 
Damit sind samtliche Steuersignale fur das Protokoll lokal, 
wodurch eine Erhohung der Systemf requenz moglich wird. Zum 
5 Ausbalancieren der Datenpfade bieten sich FIFO-Stufen an, die 
als Verzogerungsstuf en (delayline) mit konf igurierbarer Ver- 
zogerund arbeiten, die nachfolgend genauer beschrieben wer- 
den . 

Eine weitaus optimalere Losung, bei der auch Datenpfade baum- 
10 formig zusammengefuhrt werden konnen, ist wie folgt aufbau- 
bar : 

Abgewandeltes Protokoll, Timestamp 

Vorbedingung ist, dafi ein Datenpfad in mehrere Zweige aufge- 
15 trennt und spater wieder zusammengefuhrt wird. Dies geschieht 
gewohnlicherweise bei Verzweigungen wie bei den Programmier- 
konstrukten. „ir oder „CASE" . In Figur 7a .ist ein CASE- 
ahnliches Konstrukt beispielhaft dargestellt. 

Spatestens der letzten PAE vor einer Verzweigung (0701) wird 
20 ein REQCNT (0702) zugeordnet, der jedem Datenwort einen Wert 
(Timestamp) zuweist, der im weiteren immer zusammen mit dem , 
Datenwort ubertragen wird. . REGCNT zahlt linear mit jedem Da- 
tenwort weiter, sodass "durch einen eindeutigen Wert die Posi- 
tion eines Datenwortes innerhalb eine^ Datenstroms bestimmbar 
25 ist. Die. Datenworte verzweigen sich nachfolgend in mehrere 

unterschiedliche Datenpfade (0703, 0704, 0705).. Mit jedem Da- 
tenwort wird der ihm zugeordneteh Wert (Timestamp) durch die 
Datenpfade geleitet. 

Vor der/den PAE (0708) die den zusammengef uhrten Da.tenpfad 
30 weiterverarbeiten, sortiert ein Multiplexer (0707) die Daten- 
worte wieder in die richtige Reihenfolge. Dazu ist dem Multi- 
plexer ein linear zahlender SNDCNT (0706) zugeordnet. Der 
Wert (Timestamp) der jedem Datenwort zugewiesen wurde, wird 
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mit dem Wert von SNDCNT verglichen. Das jeweils passende Da- 
tenwort wird durch den Multiplexer selektiert. Pafit zu einem 
.bestimmten Zeitpunkt kein Datenwort, wird keine Selektion 
durchgef uhrt . SNDCNT zahlt nur dann weiter, wenn ein passen- 

5 des Datenwort selektiert wurde. 

Um eine moglichst hohe Taktfrequenz zu erreichen ist dabei 
die Zusammenfuhrung der Datenpfade sehr lokal durch zufuhren. 
Damit werden die Leitungslangen minimiert und die damit ver- 
bundenen Laufzeiten gering gehalten. 

10 Gegebenenf alls sind die Langen der Datenpfade durch Register- 
stufen (Pipelines) auszugleichen f bis samtliche Datenpfade an 
einem gemeinsamen Punkt zusammengefuhrt werden konnen. Dabei 
sollte darauf geachtet werden, dafi die Langen der Pipelines 
in etwa gleich sind, um keine allzu grofien Zeitverschiebungen 

15 zwischen den Datenworten zu erhalten. 



Verwendunq der Timestamp zum Multiplexen 

Der Ausgang einer PAE (PAE-S) wird an mehrere PAE (PAE-E) 
20 weitergeleitet. Nur eine der PAEs soil die Daten je Taktzy- 

klus verarbeiten. Die PAE-E haben eine jeweils unterschiedli- 
che fest konf igurierte Adresse, die jeweils mit dem 
TimeStamp-Bus verglichen wird. Die PAE-S selektiert die emp- 
fangende PAE dadurch,' dafl sie die Adrasse der empfangenden 
25 PAE auf den TimeStamp Bus ausgibt . Dadurch wird die PAE 
adressiert, fur die die Daten jeweils bestimmt ist. 

Spekulative Aasfiihmng und Task- Switch 

30 Von klassischen Mikroprozessoren. ist das Problem der spekula- 

tiven Ausfuhrung- bekanht. Dieses tritt auf, wenn die Verar- 

beitung von Daten von einem Ergebnis der vorhergehenden Da- 

tenverarbeitung abhangig ist; aber jedoch mit der Verarbei- 

20 
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tung der abhangigen Daten aus Perf ormance-Grunden jedoch 
schon vorab - ohne daB das erf orderliche Ergebnis vorliegt - 
begonnen wird. 1st das Ergebnis ein anderes als vorab ange- 
nommen, mufi die Verarbeitung der auf fehlerhaften Annahmen 
5 basierenden Daten neu durchgefiihrt werden (Fehlspekulation) . 
Generell kann dies auch in VPUs auf tret en. 

Durch Umsortierung und ahnliche Verfahren kann dieses Problem 
minimiert werden, wobei jedoch dessen Auftreten niemals aus™ 
geschlossen werden kann. 

10 

Ein ahnliches Problem liegt dann vor, wenn durch eine, der 
Datenverarbeitung in einerhalb des PAs iibergeordnete, Einheit 
(z.B. der Task-Scheduler eines Betriebssystem, Echtzeitanf or- 
derung, usw.) die Datenverarbeitung abbricht, bevor diese 
15 vollstandig ausgefiihrt wurde. In diesem Fall mufi der Zustand 
der Pipeline derart gesichert werden, dafi die Datenverarbei- 
tung wieder nach der Stelle der Operanden beginnt, die zur 
Berechnung des letzen fertigen Ergebnisses gefuhrt haben. 

20 Innerhalb einer Pipeline treten zwei relevante Zustande auf: 
RD Am Beginn einer Pipeline wird angezeigt, daii neue Daten 
angenommen oder angefordert werden. 

DONE Am Ende einer Pipeline wird die korrekte Verarbeitung 
von Daten angezeigt , bei dehen keine Rehlspekulation auftrat. 
25 Weiterhin kann der Zustand MISS_PREDICT verwendet werden, der 
anzeigt, dali eine Fehlspekulation auftrat . Hilfsweise kann 
dieser Zustand auch durch eine Negierung des Zustandes DONE 
zu geeignetem Zeitpunkt generiert werden. 

30 

Spezielle. FIFOs 

Aus PACT 04 und PACT 13 sind. Verfahren bekannt, bei welchen Da- 
ten in Speichern gehalten werden und aus diesen zur Verarbei- 



WO 02/071249 



PCT/EP02/02403 



tung ausgelesen werden, bzw. Ergebnisse in_diese abgelegt 
werden. Dazu konnen mehrere unabhangige Speicher verwendet 
werden- Die Speicher konnen in unterschiedlichen Betriebsar- 
ten arbeiten, insbesondere kann ein wahlfreier Zugriff , ein 
5 Stack- oder FIFO-Betriebsmodus verwendet werden. 

Daten werden in VPUs fur gewohnlich linear verarbeitet, so- 
dass der FIFO-Betriebsmodus haufig bevorzugt zum Einsatz 
kommt. Es soli beispielhaf t eine besondere Erweiterung der 
Speicher fur den FIFO Betriebsmodus vorgestellt werden, der 
10 Spekulation direkt unterstutzt und im Fall einer Fehlspekula- 
tion die wiederholte' Verarbeitung der f ehlspekulierten Daten 
ermoglicht. Desweiteren unterstutzt der FIFO Taskswitches zu 
beliebigen Zeitpunkten. 

15 Zunachst wird der erweiterte FIFO Betriebsmodi am Beispiel 
eines Speichers ausgefuhrt, auf den im Rahmen einer bestimm- 
ten Datenverarbeitung lesend (Leseseite) zugegriffen wird. 
Der beispielhaf te FIFO ist in Figur 8 dargestellt. 
Der Aufbau der Schreibschaltung entspricht mit einem gewohn- 

20 lichen Schreibzeiger (WR_PTR, 0801) dabei dem Stand der Tech- 
nik, der sich mit jedem Schreibzugrif f (08.10) 'weiterbewegt . 
.Die Leseschaltung besitzt 'z^B. den ublichen Zahler (RD_PTR, 
0802) , der entsprechend eines Lesesignals (0811) .jedes gele-- 
sene Wort zahlt und entsprechend die Laseadresse des Spei- 

25 chers (0803) modifiziert. Neu gegenuber dem Stand der Technik 
ist eine zusatzliche Schaltung DONE_PTR (0804) , die nicht die 
ausgelesenen Daten dokumentiert,. sondern die ausgelesenen und 
korrekt verarbeiteten, mit anderen Worten also nur die Daten 
bei denen kein Fehler auftrat und deren Ergebnis am Ende der 
. 30 -. Berechnung. ausgegeben und das korrekte Berechnungsende ein 
Signal (0812) angezeigt wurde. Mogliche Schaltungen werden 
nachfolgend beschrieben. 

22 
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Das FULL-Flag (0805) (nach den Stand der Technik) , das an- 
zeigt, dafi der FIFO voll ist und keine weiteren Daten mehr 
- gespeichert werden konnen, wird nunmehr durch einen Vergleich 
(0806) von DONE._PTR mit WRJWTR generiert. Dadurch wird si- 
5 chergestellt, dass Daten, auf die bedingt durch eine mogliche 
Fehlspekulation ein Riickgriff notwendig wird, nicht tiber- 
schrieben werden. 

Das EMPTY- Flag (0807) wird entsprechend dem ublichen Aufbau 
durch Vergleich (0808) des RDJPRT mit dem WR__PTR generiert. 
10 Trat eine Fehlspekulation (MISS_PREDICT, 0809) auf, wird der 
Lesezeiger mit dem Wert DONE__PTR + 1 geladen. Damit wird die 
Datenverarbeitung wieder bei dem Wert begonnen, der eine 
Fehlspekulation ausloste. 

Zwei mogliche Ausgestaltungen des DONEJPTR sollen beispiel- 
15 haft genauers ausgefuhrt werden: 

a) Implement ie rung durch einen Zahler 

DONE_PTR ist als Zahler implementiert , der bei einem Reset 
der Schaltung oder zu Beginn einer Datenverarbeitung gleich 
dem RD_PTR gesetzt wird. Durch ein eingehendes Signal (DONE) 
20 wird angezeigt, dafi die Daten erfolgreich, d.h. ohne Fehlspe- 
kulation verarbeitet wurden. Dadurch wird DONE_PRT derart mo- 
difiziert, dafi er auf. das nachste' sich in Verarbeitung befin- 
dende Datenwort zeigt. 

b) Implement ierung durch einen Subtrahierer 

25 Sofern die Lange der datehverarbeitenden Pipeline immer exakt 
bekannt ist und sichergestellt ist, dafi die Lange konstant 
ist (also keine Verzweigung in unterschiedlich lange Pipeli- 
nes stattf indet ) , kann ein Subtrahierer eingesetzt werden.. In 
einem zugeordneten Register wird die Lange der Pipeline vom 

30 Anschlufi. des Speichers bis zum Erkennen einer moglichen Fehl- 
spekulation gespeichert. Dadurch mufi die Datenverarbeitung 
nach einer Fehlspekulation bei dem Datenwort wieder aufge- 
setzt werden, das durch die Differenz berechnet werden kann. 
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Auf der Schreibseite, urn das Ergebnis der Datenverarbeitung 
einer Konf iguration zu sichern, ist ein entsprechend ausge- 
stalteter Speicher erf orderlich, wobei die Funktion des DO- 
5 NE_PRT ftir den Schreibzeiger implementiert ist, um bereits 

(f ehl-) berechnete Ergebnis se bei einem erneuten Durchlauf der 
Datenverarbeitung wieder zu uberschreiben. Mit anderen Worten 
ist die Funktion des Schreib-/Lesezeigers entsprechend der in 
der Zeichnung geklammerten Adressen vertauscht. 

10 

Wird die" Verarbeitung der Daten von einer anderen Quelle uri- 
terbrochen (z*B. Taskswitch eines Betriebssystems) ist es 
hinreichend den DONE_PTR zu sichern und die Datenverarbeitung 
zu einem spateren Zeitpunkt bei DONE__PTR + 1 wieder aufzuset- 
15 zen. 



FIFOs fur Input/Output- Stuf en , z.B. 0101, 0103 

Zum Ausbalancieren von Datenpfaden und/oder Zustanden unter- 
20 . schiedlicher Kanten eines Graphen, bzw. unterschiedlicher 
Zweige der ■ Datenverarbeitung (Trigger, vgl. PACT08, PACT13) 
ist es sinnvoll ' konf igurierbare FIFOs an den Aus'gangen oder 
Eingangen der PAEs- einzusetzen. Die FIFOs besitzen einstell- 
bare Latenzzeiten, sodass die Verzogerung unterschiedlicher 
25 Kanten/ Zweige, also die Laufzeit von Daten liber unterschied- 
liche .aber zumeist parallele Datenpfade, aufeinander abge- 
stimmt werden kahn. 

Da es innerhalb einer VPU zum Anhalten einer Pipeline auf- 
grund ♦ausstehender Daten oder eines ausstehenden Triggers 
30 komrtien kann, sind die FIFOs ebenfalls zum Ausgleichen derar- 
tiger Verzogerungen sinnvoll. Die nachfolgend beschriebenen 
FIFOs losen beide Aufgaben: 

24 
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Eine FIFO-Stuf e kann beispielsweise wie in„ Figur 9 darge- 
stellt f olgendermassen aufgebaut sein: Einem Register (0901) 
ist ein Multiplexer (0902) nachgeschaltet . Das Register spei- 
chert die Daten (0903) und auch deren korrekte Existenz, d.h. 

5 das dazugehorende RDY (0904) . Das Einschreiben in das Regi- 
ster erfolgt genau dann, wenn die benachbarte FIFO-Stuf e, die 
naher zum Ausgang . (0920) des FIFOs liegt anzeigt, dass sie 
voll ist (0905) und ein RDY (0904) fur die Daten anliegt. Der 
Multiplexer leitet Eingehende Daten (0903) so lange direkt 

10 auf den Ausgang weiter (0906) , bis Daten in das Register ge- 
schrieben wurden und die FIFO-Stuf e damit selbst voll ist, 
was der benachbarten FIFO-Stuf e, die naher zum Eingang (0921) 
des FIFOs liegt angezeigt wird (0907) . Die Annahme von Daten 
in einer FIFO-Stuf e wird mit einem Input -Acknowledge (LACK, 

15 0 908) bestatigt. Die Abnahme von Daten aus einem FIFO wird 

durch Output-Acknowledge (OACK, 0909) bestatigt. OACK gelangt 
zugleich an a lie FIFO-Stufen und bewirkt das weiters.chieben 
der Daten im FIFO urn jeweils eine Stufe. 

20 Einzelne FIFO-Stufen konnen zum Aufbau beliebig langer FIFOs 
kaskadiert werden Figur 9a. Dazu werden alle IACK-Ausgange 
logisch miteinander verknupft, beispielsweise ' durch eine 
ODER-Funktion (0910) . 

"t - 

25 Die Funktionsweise wird am Beispiel von Figur 10a, b erlau- 
tert: 

Hinzufiigen eines D'atenwortes 

Ein neues Datenwort wird uber die Multiplexer der einzelnen 
30 FIFO-Stufen an den Registern vorbeigeleitet . Die erste voile 
FIFO-Stuf e (1001) signalisiert der davo-rliegenden Stufe 
(-1002) anhand des gespeicherten RDY, daJi .sie keine Daten an- 

nehmen kann. Die davorliegende Stufe (1002) hat kein RDY ge- 
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speichert, kennt aber den "Voll"-Zustand der Nachf olgenden 
(1001) . Daher speichert die Stufe die Daten und das RDY 
(1003); und quittiert die Speicherung durch ein ACK an den 
Sender- Der Multiplexer (1004) der FIFO-Stufe schaltet dabei 
5 derart urn, dass er nicht mehr den Datenpfad an die nachfol- 
gende Stufe weiterleitet , sondern den Inhalt des Registers. 

Entfernen eines Datenwortes 

Geht ein ACK (1011) bei der letzten FIFO-Stufe ein, werden 
die Daten jeder vorhergehenden Stufe an die jeweils Nachf ol- 
gende iibertragen (10i0) . Dies geschieht durch Anlegen eines 
globalen Schreibtaktes an jede Stufe, Da s-amtliche Multiple- 
xer bereits entsprechend der Registerbelegung gestellt si'nd, 
rutschen somit alle Daten im FIFO urn eine Zeile nach unten. 

Entfernen und gleichzeitiges Hinzufugen eines Datenwortes 
Liegt der globale Schreibtakt an, wird in der ersten freien 
20 Stufe kein Datenwort gespeichert. Da der Multiplexer dieser 
Stufe die Daten noch an die Nachf olgende weiterleitet, spei- 
chert die erste voile Stufe (1012) die Daten. Deren Daten 
werden wie zuvor beschrieberi im selben Takt von der nachfol- 
genden Stufe gespeichert. Mat anderern> Worten: Neu einzu- 
25 schreibenden. Daten rutschen automatisch in die nunmehr erste 
freie FIFO-Stufe (1012) , d.h. die vormals letzte voile FIFO- 
Stufe, die durch eintref f en von ACK geleert wurde, nach. 



. . 30 Konf iguirierbare Pipeline 

Es kann fur bestimmte Anwendungen von Vorteil sein, mittels 

eines Schalters (0930) in den beispielhaft in Figur 9 gezeig- 

ten FIFO-Stufe einzelne Multiplexer des FIFOs derart zu 
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schalten, dali grundsatzlich das entsprechende Register einge- 
schaltet ist. Darait ist eine feste Latenz- bzw. Verzugerungs- 
zeit bei der Datentibertragung einstellbar iiber den Schalter 
konf igur ierbar . 

5 

Zusammenfuhren von Da tens tr omen (mergen) 

Zum Zusammenfuhren der Datenstrome stehen .insgesamt 3 Verfah- 
ren zur Verfiigung, die je nach Anwendung unterschiedlich gut 
10 geeignet sind: 

a) Local Merge 

b) Tree Merge 

c) Memory Merge 

15 

Lokales Zusammenfuhren (Local Merge) 

Die einfachste Variante ist der local merge. Dabei werden al- 
le Datenstrome bevorzugt an einem einzigen Punkt oder ver- 
gleichsweise lokal zusammengef iihrt und gegebenenf alls sofort 
20 wieder aufgetrennt. Ein lokaler SNDCNT selektiert iiber einen 
Multiplexer genau das Datenwort, das dessen Timestamp dem 
Wert von SNDCNT eritspricht und'da.her aktueil- erwartet wird. 
Zwei Moglichkeiten sollen ahhand der Figuren 7a und 7b nahers 
erlautert werden: 
25 a) Ein Zahler SNDCNT (0706) zahlt bei j edem eintref f enden Da- 
tenpaket weiter-. Je Datenpfad ist ein Vergleicher nachge- 
schaltet, der den Zahler stand jeweils mit der Timestamp des 
Datenpfades ver.gleicht . Stimmen die Werte tiberein, wird das 
aktuelle Datenpaket iiber den Multiplexer an die nachf olgenden 
. 30 PAEs weitergeleitet . 

b) Die LSsung nach a) wird derart erweitert, dafi nach der 
Auswahl des. jeweils aktiven Datenpfades ais Herkunftsdaten- 

pf ad diesem beispielsweise mittels einer bevorzugt iiber ein 
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Ubersetzungsverfahren, z.B. eine CT konf igurierbaren Lookup- 
Tabelle (0710) , ein Zieldatenpf ad zugeordnet wird.- Der Her- 
kunf tsdatenpf ad wird ermittelt indem die mit den Daten ein- 
treffenden Timestamp entsprechend Verfahren a) mit einem 

5 SNDCNT (0711) verglichen (0712) werden und der iibereinstim- 
mende Datenpfad adressiert (0714) und uber einen Multiplexer 
(0713) selektiert wird. Die Adresse (0714) wird mittels der 
beispielhaften Lookup-Tabelle (0710) einer Zieldatenpf ada- 
dresse (0715) zugeordnet die liber einen Demultiplexer (0716) 

10 den Zielpfad auswahlt. Sofern die beschriebene Struktur in 

Bus knot en ahnlich Figur implementiert ist, kann uber die bei- 
spielhafte Lookup-Tabelle (0710) die Datenverbindung auch der 
dem Bus knot en zugeordnete PAE (0718) aufgebaut werden, bei- 
spielsweise uber eine Tor-Funktion (Transmission-Gates) 

15 (0717) zum Eingang der PAE. 

Ein besonders. leistungsf ahiges Schaltungsbeispiel ist in Fi- 
gur 7c dargestellt. Eine PAE (0720) besitzt 3 Dateneingange 
(A,B,C), wie beispielsweise in der XPU128ES. Bussysteme 

20 ( 0 7 3*3) konnen konf igurierbare und/oder multiplexbar und je 
Taktzyklus selektierbar auf die- Dateneingange auf geschaltet 
werden. Jedes Bussystem iibertragt Daten, Handshakes und die 
zugeordnete Timestamp (0721) . Die Eingange A und C der PAE. 
(0720) werden dazu verwendet, die Timestamp der Datenkanale 

25 an die PAE weiterzuleiten (0722, 0723) . Die einzelnen 

Timestamp konnen beispielsweise durch das nachfolgend be- 
schriebene SIMD-Bussystem gebundelt werden.. Die* gebundelten 
Timestamp werden in der PAE wieder aufgetrennt und jede- 
Timestamp je einzeln (0725, 0726, 0727) mit einem in der PAE 
. 30 • realisierten/konfigurierten SNDCNT (0724) verglichen (0728) . 
Die Ergebnisse der- Vergleiche werderi verwendet urn die Ein- 
gangsmultiplexer (0730) derart anzusteuern, dass das Bussy- 
stem mit der korrekten Timestamp auf eine- Sammelschiene 
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(0731) durchgeschaltet wird. Die Sammelschiene ist bevorzugt 
mit dem Eingang B verbunden, urn eine Datenweiterleitung an 
die PAE entsprechend 0717 , 0718 zu ermoglichen. Die Ausgangs- 
demultiplexer (0732) zur Weiterleitung der Daten auf unter- 
5 schiedliche Bussysteme werden ebenfalls durch die Ergebnisse 
angesteuert, wobei bevorzugt eine Umordnung der Ergebnisse 
durch eine flexible Ubersetzung, z.B. durch eine Lookup- 
Tabelle (0729) stattfindet, sodass den Ergebnissen frei uber 
Demultiplexer' (0732) zu selektierende Bussysteme zugeordnet 
10 werden konnen. 

Baumartiges Zusammenf iigen CTree Merge) 

In vielen Applikationen ist es wunschenswert an mehreren 
Punkten Teile eines Datenstromes zu mergen. Es ergibt sich 

15 daraus eine Baum ahnliche Struktur. Dabei entsteht das Pro- 
blem, dafi keine zentrale Entscheidung uber die Selektion ei- 
■ nes Datenwortes gefallt werden kann, sondern dafi die Ent- 
scheidung uber mehrere Knoten verteilt ist. Daher ist erfor- 
derlich an alle Knoten den jeweiligen Wert von SNDCNT zu 

20 iibertragen. Bei hohen Taktf requenzen ist das jedoch nur mit 
einer Latenzzeit, die beispielsweise durch mehrere Register- 
stufen wahrend der Obertragung entsteht, moglich. Damit bie- 
tet diese Losung zunachst keine sinnvolle Performance. 
Ein Verfahren zum Verbessern der Performance ist, dafi lokale 

25 Entscheidungen in jedem Knoten unabhangig vom Wert von SNDCNT 
zugelassen werden. Ein beispielsweise einfacher Ansatz ist, 
das Datenwort mit der • j.eweils • kleinsten Timestamp an einem 
Knoten zu selektieren. Dieser Ansatz wird jedoch problema- 
tisch, wenn.ein batenpfad an einem Knoten zu einem Takt kein 
- 30 Datenwort liefert. Nun kann nicht entschieden werden, welcher 
Datenpfad der zu bevorzugende ist. 

Der nachfolgende Algorithmus verbessert dieses Verhalten: 

29 
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a) Jeder Knoten erhalt einen eigenstandigen SNDCNT Zahler 
SNDCNTr. 

b) Jeder Knoten soli n Eingangsdatenpf ade (P 0 ..P n ) besit- 
zen. 

5 c) Jeder Knoten kann mehrere Ausgangsdatenpfade besitzen, 

die mittels eines Ubersetzungsverf ahrens, z.B. einer 
durch eine ubergeordnete Konf igurationseinheit CT konfi- 
gurierbare Lookup-Tabelle, abhangig vom. Eingangsdaten- 
pf ad selektiert werden. 

10 d) Der Root-Knoten besitzt den Haupt-SNDCNT auf den alle 

SNDCNTr gegebenenfalls synchronisiert werdem.. 

Zur Selektion des korrekten Datenpfades wird folgender Algo- 
rithmus angewendet: 
15 I.Sofern Daten an alien P n Eingangsdatenpf aden anstehen gilt: 

a) Auswahl des Datenpfades P (TS ) mit der kleinsten Timestamp 
Ts . 

b) Zuweisung von K := Ts+1; SNDCNT > Ts+1 gilt SNDCNTr : = 
SNDCNT . 

20 

II. Wenn nicht an alien Pn Eingangsdatenpf aden Daten anstehen 
gilt: 

a) Auswahl eines Datenpfades nur, wenn die Timestamp Ts == 
SNDCNTr 

25 b) SNDCNTr := SNDCNT + 1 

c) SNDCNT := SNDCNT + 1 

III. Wird in einem Takt keine Zuweisung durchgefuhrt gilt: 
a) SNDCNTr := SNDCNT 

30 

IV. Der Root-Knoten besitzt den SNDCNT, der bei jeder Selek- 
tion eines gultigen Datenwortes weiterzahlt und die korrekte 

Reihenfolge der Datenworter bei der Root des Trees sicher- 

30 
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stellt. Alle andern Knoten werden auf Wert- von SNDCNT syn- 
chronisiert, sofern erforderlich (siehe 1-3) . Dabei tritt ei- 
ne Latenzzeit auf,, die der Anzahl der' Register entspricht, 
die zu Uberbruckung der Strecke von SNDCNT nach SNDCNT K ein- 
5 geftigt werden mussen. 

Figur 11 zeigt einen moglichen Baum, der beispielsweise auf 
PAEs ahnlich denen der VPU XPU128ES aufgebaut sind. Ein Root- 
Knoten (1101) besitzt einen integrierten SNDCNT, dessen Wert 

10 am Ausgang H (1102) zur Verfugung steht. Die Datenworte an 
den Eingange A und C werden entsprechend des beschriebenen 
Verfahrens selektiert und jeweils das Datenwort mit der kor- 
rekten Reihenfolge auf den Ausgang L gefuhrt. 
Die PAEs der nachsten Hierarchiestuf e (1103) und auf jeder 

15 weiteren hoheren Hierarchiestuf e (1104, 1105) arbeiten ent- 
sprechend, weisen jedoch folgenden Unterschied auf: Der inte- ■ 
grierte SNDCNT K ist lokal, der jeweilige Wert wird nicht wei- 
tergeleitet . SNDCNT K wird entsprechend des beschriebenen Ver- 
fahrens mit SNDCNT, dessen Wert am Eingang B anliegt synchro- 

20. nisiert. 

SNDCNT kann zwischen samtlichen Knoten, insbesondere aber 
auch zwischen den einzelnen Hierarchiestuf en, beispielsweise 
iiber Register gepipelinet sein. 

25 

Zusammenfugen mittels Speicher (Memory Merge)' 

Bei diesem Verf ahr en werden zum Zusammenfuhren- von Datenstro- 

men Speicher verwendet. Dabei wird jedeiti Wert der Tim'estamp 

ein Speicherplatz zugewiesen. Die Daten- werden dann entspre- 

30 chend des Wertes ihrer Timestamp in dem Speicher abgelegt; 

' mit anderen Wort en dient die Timestamp als Adresse der Spei- 

cherstelle fur die zugeordneten Daten. Dadurch entsteht ein 

Datenraum der linear zu den Timestamp ist, d.-h. entsprechend 
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der Timestamp sortiert ist. Erst wenn der Datenraum vollstan- 
dig ist, d.h. alle Daten gespeichert wurden, wird der Spei- 
cher zur weiteren Verarbeitung freigegeben, bzw. linear aus- 
gelesen. Dies ist kann beispielsweise einfach festgestellt 
5 werden, indem gezahlt wird, wieviele Daten in einen Speicher 
geschrieben wurden. Wurden soviele Daten geschrieben wie der 
Speicher Dateneintrage besitzt ist er voll. 

Bei der. Durchfuhrung des Grundprinzipes tritt folgendes Pro- 

10 blem auf: Bevor der Speicher luckenlos geftillt ist, kann ein 
Oberlauf der Timestamp stattfinden. Ein Oberlauf ist folgen- 
dermafien definiert: Eine Timestamp ist eine Zahl aus einem 
endlichen linearen Zahlenraum (TSR) . Die Vergabe von 
Timestamps* erfolgt streng monoton, wodurch innerhalb des Zah- 

15 lenraumes TSR jede vergebene Timestamp eindeutig ist- Wird 

bei der Vergabe einer Timestamp das Ende des Zahlenraumes er- 
reicht wird die Vergabe beim Beginn von TSR fortgesetzt; da- 
durch entsteht eine Unstetigkeitsstelle . Die nunmehr vergebe- 
nen Timestamp sind nicht mehr eindeutig gegeniiber . den vorher- 

20 gehenden. Es ist grundsatzlich sicherzustellen,. dali diese Un- 
stetigkeitsstellen bei der Verarbeitung berucksichtigt wer- 
den. Der Zahlenraum (TSR) ist daher so groli zu wahlen, dali im 
ungiinstigsten Fall keine Doppeldeutigkeit dadurch entsteht, 
dali zwei identische Timestamp innerhalb* der Datenverarbeitung 

25 auf tret en. Mit anderen Wprten muii TSR so groli sein, dali im 

ungunstigsten Fall, der innerhalb der nachf olgendeh Verarbei- 
tungspipelines und/oder Speicher auftreten kann, keine iden- 
tischen Timestamp innerhalb der V'erarbeitungspipelines 
und/oder Speicher exist ieren. 
. 30 Tritt niinmehr ein Oberlauf der Timestamp auf, mussen die 

Speicher in jedem Fall darauf reagiereri konnen. Es muss davon 
ausgegangen werden, daB nach einem Oberlauf teilweise Daten 

mit der Timestamp vor dem Oberlauf („alte Daten" ) und teil- 
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weise Daten mit der Timestamp nach dem Oberlauf („neue Da- 
ten" ) in den Speichern enthalten sein werden. 

Die neuen Daten konnen nicht in die Speicherstellen der alten 
Daten geschrieben werden, da diese noch nicht ausgelesen wur- 
5 den. Daher sind mehrere (mindestens zwei) unabhangige Spei- 
cherblocke vorzusehen, sodafi die alten und neuen Daten ge- 
trennt geschrieben werden konnen. 

Zur Verwaltung der Speicherbldcke konnen beliebige Verfahren 
eingesetzt werden. Zwei Moglichkeiten werden nahers ausge- 
10 f iihrt : 

a) Sofern immer sichergestellt ist, daft die altert Daten 
eines bestiitimten Timestamp-Wertes vor den neuen Daten 
dieses Timestamp-Wertes eintreffen, wird getestet, ob 
die Speicherstelle fur die alten Daten noch frei ist. 
Ist dies der Fall liegen alte Daten vor und die Spei- 
cherstelle wird beschrieben, wenn nicht liegen neue Da- 
ten an und die Speicherstelle fiir die neuen Daten wird 
beschrieben, 

b) Ist nicht sichergestellt, daft die alten Daten eines be- 
stimmten Timestamp-Wertes vor den neuen Daten dieses 
Timestamp-Wertes eintreffen, kann die Timestamp mit e.i- 
her Kennung versehen werden, die alte und neue 
Timestamps unterscheidet . Diese Kennung kann ein oder 
mehrere Bits breit sein. Bei einer tlberlauf der 
Timestamp wird die Kennung linear verandert. Dadurch 
sind nunmehr alte und neue Daten mit eindeutigen 
Timestamps versehen. Entsprechend der Kennung werden 
die Daten einem von mehreren SpeicherblScken zugewie- 
sen. 



15 
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Bevorzugt werden daher Kennungen verwendet,. deren maximaler 
numerischer Werte berachtlich kleiner sind als der maxima le 
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numerische Wert der Timestamps . Ein bevorzugtes Verhaltnis 
kann durch folgende Fonael angegeben werden: 
Kennung max < TimeStampmax / 2 

5 

Verwendung von Speichem zur Partitionierung breiter Graptten 

Wie aus PACT 13 bekannt ist es erf orderlich, grofie Algorithmen 
zu paritionieren, d,h. in eine Mehrzahl von Teilalgorithinen 
zu zerteilen, damit dies jeweils auf eine vorgegebene Anord- 

10 nung und Menge von PAEs einer VPU passen. Die. Partitionierung 
ist dabei einerseits perf ormanceef f izient andererseits natur- 
lich unter Beibehaltung der Korrektheit des ALgorithmus 
durchzufiihren. Ein wesentlicher Aspekt ist dabei die Verwal- 
tung der Daten und Zustande (Trigger) der jeweiligen Daten- 

15 pfade. Im Folgenden werden Verfahren zur verbesserten und 
vereinfachten Verwaltung vorgestellt. 

In vielen Fallen ist es nicht moglich einen Datenf luligraphen 
an nur einer Kante zu schneiden (Beispiels siehe Figur 12a) , 
20 da der Graph beispielsweise zu breit ist, bzw. da zu viele 

Kanten (1201/ 1202, 1203) an der Schnittstelle (1204) vorhan- 
.den sind. 

Die Partitionierung kann erf indungsgemafi derart durchgefuhrt 
werden, dafi entsprechend Figur 12b entllang aller Kanten ge- 
25 schnitten wird. Die Daten jeder Kante einer ersten Konfigura- 
tion (1213) werden in einen separates Speicher (1211) ge- 
schrieben'. 

Es soil ausdriicklich angemerkt werden, daB zusammen mit . (oder 
.30 ' ggf • auch . getrennt von) den Daten auch samtliche relevanten 
Statusinf ormationen der Datenverarbeitung iiber die Kanten 
(beispielsweise in Figur 12b) laufen und in die Speicher ge- 
schrieben werden konnen. Die Statusinf ormationen sind in der 
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VPU-Technologie beispielsweise durch Trigger (vgl. PACT 0 8 ) 
reprasentiert . 

Nach der Rekonf iguration werden die Daten und/oder Statusin- 
5 format ionen von einer nachfolgeden Konf iguration (1214) aus 
den Speichern. ausgelesen und durch diese Konf iguration wei- 
terbearbeitet . 

Die Speicher arbeiten als Datenempf anger der ersten Konfigu- 
10 ration (also in einer hauptsachlich beschreibenden Arbeits- 
weise) und als Datensender der nachf olgenden Konf iguration 
(also in einer hauptsachlich auslesenden Arbeit sweise) . Die- 
Speicher (1211) selbst sind Teil/Ressourcen beider Konfigura- 
tionen. 

15 

Zur korrekten Weiterverarbeitung der Daten ist es notwendig 
die ordentliche zeitliche Reihenfolge zu kennen, in der die 
Daten in die Speicher geschreiben wurden. 

Grundlegend kann dies gewahrleistet werden r indem die Daten- 
20 strome entweder 

a) beim Einschreiben in einen Speicher sortiert werden 
und/oder 

b) beim Auslesen aus einem Speicher sortiert werden 
und/oder 

25 c) die Sortierreihenf olge mit den Daten gespeichert und der 
nachf olgenden Datenverarbeitung zur Verfiigung gestellt wird- 

Dazu werden den Speichern Steuereinheiten zugeordnet r die so- 
wohl beim Einschreiben der Daten (1210) in die Speicher 
30 (1211) , als auch beim Auslesen der Daten aus- deri Speichern- 
(1212) fur die Verwaltung der Datenreihenf olgen und Datenab- 
hangigkeiten sorgen. Je . nach Ausgestaltung konnen unter- 
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schiedliche Verwaltungsarten und entsprechende Steuermecha- 
nismen eingesetzt werden. 

Zwei mogliche entsprechende Verfahren sollen anhand Figur 13 
5 ausfuhrlicher erlautert werden. Die Speicher sind ahnlich des 
Datenverarbeitungsverfahren nach PACT 04 einem Array (1310, 
1320) aus PAEs zugeordnet: 

a). In Figur 13a generieren die Speicher ihre Adressen syn- 
chron beispielsweise durch gemeinsame Adressgeneratoren und 

10 unabharigige aber synchrongeschaltete. Mit anderen Worten wird 
die Schreibadresse (1301) pro Zyklus weitergezahlt , unabhan- 
gig ob ein Speicher tatsachlich gultige Daten zu speichern 
hat. Damit besitzen eine Mehrzahl von Speichern (1303, 1304) 
dieselbe Zeitbasis, bzw-. Schreib/Leseadresse . Ein zusatzli- 

15 ches Flag (VOID, 1302) je Datenspeicherstelle im Speicher 

zeigt an, ob gultige Daten in eine Speicheradresse geschrie- 
ben wurden. Das Flag VOID kann durch das den Daten zugeordne- 
te RDY (1305) generiert werden, entsprechend wird beim Ausle- 
sen eines Speichers das Daten RDY (1.306) aus dem Flag VOID 

20 generiert. Fur das Auslesen. der Daten durch die nachfolgende 
Konf iguration wird entsprechend dem Einschreiben der Daten 
eine gemeinsame Leseadresse (1307) generiert, die pro Zyklus 
weitergeschaltet wird. 

25 b) Effizienter ist im Beispiel nach Figur 13b ist die Zuord- 
nung einer Timestamp zu jedem Datenwort entsprechend des be- 
reits beschriebenen Verfahrens. Die Daten (.1317) werden mit 
der dazugehorenden Timestamp (1311) in der jeweiligen Spei- 
cherstelle gespeichert. Dadurch entstehen keine Lucken in den 

30 Speichern und diese werden effizienter ausgelastet. Jeder 

Speicher weist unabhangige Schreibzeiger (13.13, 1314) fur die 
dateneinschreibende Konf iguration und Lesezeiger (1315,. 1316) 
fur die nachfolgend datenauslesende Konf iguration auf . Ent- 
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sprechend der bekannten Verfahren (beispielsweise entspre- 
chend Figur 7a Oder Figur 11) wird beim Auslesen das jeweils 
zeitlich korrekte Datenwort anhand der zugeordneten und mit- 
gespeicherten Timestamp (1312) selektiert. 

5 

Die Sortierung der Daten in die Speicher /aus den Speichern 
kann also nach unterschiedlichen algorithmisch jeweils geeig- 
neten Verfahren erfolgen, wie beispielsweise durch 
a) Zuweisung eines Speicherplatzes durch die Time St amp 
10 b) Einsortieren in den Datenstrom gemafi der TimeStamp 

c) Speichern je Takt zusammen mit einem VALID-Flag 

d) Speichern der TimeStamp und derer Weitergabe an den nach- 
folgenden Algorithmus beim Auslesen des Speichers 

15 Applikationsabhangig konnen mehrere (oder alle) Datenpfade 

auch vor Speichern iiber die erf indungsgemaften Merge-Verf ahren 
zusammengefiihrt werden. Ob dies durchgefuhrt wird hangt im 
wesentlichen von den zur Verfugung stehenden Ressourcen ab. 
Stehen zu wenig Speicher zur Verfugung ist eine Zusammenfuh- 

20' rung vor den Speichern erforderlich oder wunschenswert . Ste- 
hen zu wenig PAEs zur Verfugung, werden bevorzugt keine wei- 
tefen PAEs f ur eihen Merge verwendet . 



25 Erweiterung der Peripherleinterf ace (IO) durch Timestamp 

Nachfolgend wird eine Verfahren beschrieben, um 10 Kanalen zu 
Peripheriebausteinen und/oder externen Speichern Timestamps 
zuzuordnen. Die Zuordnung kann unterschiedliche Zwecke erf al- 
ien, beispielsweise um eine korrekte Sortierung von Daten- 
..30 stromen zwischen Sender und Empf anger zuzulassen und/oder 

Quellen uhd/oder Ziele von Datenstromen eindeutig zu selek- 
tieren. 
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Die nachf olgenden Ausfuhrungen werden am Beispiel der Inter- 
facezellen aus PACT 03 verdeutlicht . PACT 03 beschreibt ein 
Verfahren zur Bundelung von VPU internen Bussen und dem Da- 
tenaustausch zwischen verschiedenen VPUs oder VPUs und Peri- 
5 pherie (10) . 

Ein Nachteil des Verfahrens 1st, dafi die Datenquelle beim 
Empfanger nicht mehr identif izierbar und auch die korrekte 
zeitliche Reihenfolge nicht sichergestellt ist. 
10 Folgende neue Verfahren losen dieses Problem, es konnen je- 
weils anwendungsspezif isch einige oder mehrere der beschrie- 
.benen Methoden verwendet und ggf . kombiniert' werden: 

a) Indent if ikation der Datenquelle 

15 Figur 14 beschreibt beispielhaft eihe derartige Identif ikati- 
on zwischen Arrays (PAs, 1408) aus rekonf igurierbaren Elemen- 
ten (PAEs) zweier VPUs . (1410, 1420) Ein Arbiter (1401) se- 
lektiert auf einem datensendenden Baustein (VPU, 1410) eine 
der moglichen Datenquellen (1405), urn diese uber einen Multi- 

20 plexer (1402) auf die 10 zu schalten. Die Adresse der Daten- 
quelle (1403) wird zusammen mit den Daten (1404) an die 10 
gesendet. Der datenempf angende Baustein (VPU, 1411) selek- 
tiert entsprechend der Adresse (1403) der Datenquelle den 
entsprechenden Empfanger (1406) iiber ednen Demultiplexer 

25 (1407) . Bevorzugt kann mittels eines* Ubersetzungsverf ahrens, 
z.B*. eiher Lookup-Tabelle, die beispielsweise durbh eine 
iibergeordnete Konf igurationseinheit (CT) konf igurierbar ist, 
.eine flexible Zuordnung zwischen ubertragener Adresse (1403) 
und Empfanger (1406) ermoglicht werden. 

30 Es soil ausdrucklich darauf hingewiesen werden, dass den Mul- 
tiplexer]! (1402) vorgeschaltet und/oder den Demultiplexerh 
(1407) nachgeschaltet Interf ace-Baugruppen entsprechend 
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PACT 03 und/oder PACT 15 zur konf igurierbaren Aufschaltung von 
Bussystemen verwendet werden konnen. 

b) Einhaltung der zeitlichen Reihenfolge 
5 bl) Das einfachste Verfahren ist, die Timestamp an die 10 zu 
senden und die Auswertung dem Empfanger zu uberlassen, der 
die Timestamp entgegennimmt . 

b2) In einer anderen Version wird die Timestamp vom Arbiter 
10 dekodiert, der nur den Sender mit der korrekten Timestamp se- 
lektiert und an die IO'sendet. Der Empfanger erhalt die Daten 
in der korrekten Reihenfolge. 

Die Verfahren nach a) und b) sind entsprechend den Anforde- 
15 rungen der jeweiligen Applikation zusammen oder auch einzeln 
anwendbar . 

Weiterhin kann das Verfahren durch die Vergabe und Identifi- 
kation von Kanalnummern erweitert werden. Eine Kanalnummer 

20 kennzeichnet einen bestimmten Senderbereich. Beispielsweise. 
kann • eine Kanalnummer aus mehreren Identif ikationen bestehen, 
wie Angabe des Busses innerhalb eines Bausteines, des Bau- 
steines, der Bausteingruppe . Dadurch ist auch in Anwendungen 
mit einer groBen Anzahl von PAEs und/oder .einem Zusammen- 

25 schluli vieler Bausteine eine einfache Identif izierung gege- 
ben . ' 

Vorzugsweise werden. bei der Verwendung von Kanalnummern nicht 
jeweils einze'lne Datenworte ubertragen, sonderh eine. Mehrzahl 
30- von Datenworten werden zu. einem Datenpaket zusammengef afit: und 
sodann unter Angabe der Kanalnummer Qbertragen. Das Zusammen- 
fassen der einzelnen Datenworte. kann beispielsweise mittels 
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eines geeigneten Speichers erfolgen, wie z.B. in PACT 18 
(BURST-FIFO) beschrieben- 

Es soli darauf hingewiesen werden, dass die ubertragenen 
5 Adressen und/oder Timestamp bevorzugt als Kennungen oder Teil 
von Kennungen in Bussystemen nach PACT 15 eingesetzt werden 
konnen . 

Vollumfanglich wird das Verfahren nach PACT 07 in das Patent 
10 eingegliedert, welches durch das beschriebene Identifizie- 
rungsverf ahren erweitert werden kann. Weiterhin sind die Da- 
teniibertragungsverfahren nach PACT 18 vollumf anglich einge- 
gliedert, fur die das beschriebene Verfahren ebenfalls Anwen- 
dung finden kann. 

15 

Aufbau von Sequenzern 

Durch den Einsatz von TimeStamps oder vergleichbaren Verfah- 
ren wird ein einf acher Aufbau von Sequenzern aus Gruppen von 
20 PAEs ermoglicht . Die Busse und Grundf unktionen der Schaltung 
werden konf iguriert , die Detailf unktion und Datenadressen 
werden durch einen OpCode zur Laufzeit flexibel eingestellt. 

Mehrere diese Sequenzer lassen sich zugleich innerhalb eines 
25 PA (Arrays aus PAEs) aufbauen und betreiben. 

Die Sequenzer . innerhalb einer VPU sind entsprechend des Algo- 
rithmus aufbaubar, Beispiele wurden in mehreren vollumfang- 
lich eingegliederten Schriften des Erfinders bereits gegeben. 
30 Insbesondere soli auf PACT 13 verwiesen werden, worin der Auf- 
bau von Sequenzern aus einer mehrzahl von PAEs beschrieben 
1st, was als beispielhaf te Grundlage fur die nachfolgende Be- 
schreibung dient. 
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Im Detail lassen sich zum Beispiel folgenden Ausgestaltungen 
von Sequenzern frei anpassen: 

• Art und Menge der IO/Speicher 

5 • Art und Menge der Interrupts (z-.B. uber Trigger) 

• Befehlssatz 

• Anzahl und Art von Registern 

Ein einfacher Sequenzer lafit sich beispielsweise aus 
10 1. einer ALU zur Durchfuhrung der arithmetischen und logi- 

schen Funktionen 

2. einem Speicher zur Speicherung der Daten, quasi als Re- 
gistersatz 

3. einem Speicher als CodeQuelle fur das Programm (z.B. 
15 normaler Speicher nach PACT22/24/13 und/oder CT nach 

P ACTIO /PACT13 und/oder speziellen Sequenzern nach 
PACT04) 
aufbauen 

Ggf . wird der Sequenzer urn IO-Elemente (PACT03, PACT22/24) 
20 erweitert. Zudem lassen sich weitere PAEs als Datenquellen 
oder -empf anger anschlieBen. 

Je nach eingesetzter CodeQuelle kann das Verfahren nach 
PACT 08 zum Einsatz koramen, das das dii*ekte Setzen von Opcodes 
25 einer PAE uber Datenbusse, sowie die Angabe der Datenquel- 
len/-ziele zulalit. 

Die Adressen der Datenquellen/-ziele lassen sich beispiels- 
weise per TimeStampverfahren ubertragen. Weiterhin kann der 
. Bus zur Obertragung der OpCodes. verwendet werden. 

30 

In einer beispielhaf ten Imp lementie rung nach Figur 15 besteht 
ein Sequenzer aus einem RAM zur Speicherung des Programmes 
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(1501), einer PAE zur Berechnung der Daten (ALU) (1502), ei- 
ner PAE zur Berechnung des Programmzeigers (1503), einem 
. Speicher als Registersatz (1504) und einer 10 fur externe Ge- 
rate (1505) . 

5 Durch Verdrahtung entstehen zwei Bussysteme, ein Eingangsbus 
zur ALU IBUS (1506) und ein Ausgangsbus von der ALU OBUS 
(1507) . Den Bussen zugeordnet ist jeweils eine 4-bit breite 
Timestamp, die die Quelle IBUS-ADR (1508) bzw. das Ziel OBUS- 
ADR (1509) adressiert. 

10 Von 1504 wird der Programmzeiger (1510) an 1501 gefuhrt. 1501 
lief ert den OpCode (1511) zuruck. Der OpCode wird in Befehl'e 
fur die ALU (1512) und den Programmzeiger (1513), sowie die 
Datenadressen (1508, 1509) auf gespaltet . Zur Aufspaltung des 
Busses konnen die nachfolgend beschriebenen SIMD Verfahren 

15 und Bussysteme verwendet werden. 

1502 ist als Akkumulatormas chine ausgestaltet und unterstutzt 
beispielsweise folgende Funktionen: 

Id <reg> Lade Akkumulator (1520) von Register 

20 add_sub <reg> Addiere/Subtrahiere Register z.um Akkumulator 
sl_sr Akkumulator schieben 

rl_ rr Akkumulator rotieren 

st <reg> Schreibe Akkumulator in Register 

Fur die Befehle sind 3-bit notwendig. /x Ein viertes Bit gibt 
25 die Art der Operation an: addieren oder subtrahieren, rechts- 
oder linksschieben. 

1502 liefert den ALU-Status carry auf Triggerport 0 und zero 
auf Triggerport 1. 

30 

<reg> ist f olgendermalien kodiert: 
0..7 Datenregister in 1504 

8 Eingangsregister (1521) Programmzeigerberechnung 
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9 IO-Daten 

10 IO-Adressen 

Fur die Adressen werden 4 bits benotigt.. 

5 1503 unterstutzt folgende Operationen liber den Programmzei- 
ger : 

jmp Springe auf Adresse im Eingangsregister (2321) 

jtO Springe auf Adresse im Eingangsregister 

angegeben ist, wenn TriggerO gesetzt 
10 jtl Springe auf Adresse im Eingangsregister 

angegeben ist, wenri Trigger 1 gesetzt 
jt2 Springe auf Adresse im Eingangsregister 

angegeben ist, wenn Trigger2 gesetzt 
jmpr Springe zu PP plus Adresse im Eingangsregister 

15 Fur die Befehle sind 3-bit notwendig. Ein viertes Bit gibt 
die Art der Operation an: addieren oder subtrahieren. 

Der OpCode 1511 wird also in 3 Gruppen zu je 4 bit zerlegt: 
(1508, 1509), 1512, 1513, 1508 und 1509 konnen bei dem gege- 
20 benen Instruktionssatz identisch sein. 1512, 1513 werden bei- 
spielsweise an das C-Register der PAEs gefuhrt (vgl. 
PACT22/24) und innerhalb der PAEs als Befehl dekodiert (vgl. 
PACT08 ) . 

25 Entsprechend PACT 13 und/oder PACT11 kann der Sequenzer in ei- 
ne komplexere Struktur eingebaut werden. Beispielsweise sind 
durch <reg> = 11, 12, 13, 14, 15 weitere Datenquellen adres- 
sierbar, die auch von anderen PAEs stammen konnen. Ebenfalls 
lassen.sich weitere Datenempf anger adressieren. Datenquellen 

30 und -empfanger konnen beliebig, insbesondere PAEs sein. 

Es soil angemerkt sein, daft die aufgezeigte Schaltung nur 12- 
bit des Opcodes 1511 benotigt. Bei einer 32-bit Architektur 
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stehen damit 20-bit optional zur Erweiterung der Grundschal- 
tung zur Verfugung. 

Die Multiplexerfunktionen der Busse konnen entsprechend des 
5 beschr.iebenen TimeStampverf ahrens implementiert werden. Ande- 
re Ausgestaltungen sind ebenfalls mOglich, beispielswiese 
konnten PAEs als Multiplexerstuf en eingesetzt werden. 

10 SXMD HechenwexJce und SIMD Bussysteme 

Bei der Verwendung von. rekon figurierbaren Technologien zur 
Verarbeitung von Algorithmen entsteht ein wesentliches Para- 
doxon: Einserseits sind um eine moglichst hohe Rechenleistung 
zu erhalten komplexe ALUs erforderlich, wobei der Auf wand fur 
15 die Rekon figuration minimal sein sollte./ andererseits sollten 
die ALUs moglichst einfach sein um effiziente Verarbeitung 
auf Bitebene zu ermoglichen; andererseits sollte die Rekonfi- 
guration und Datenverwaltung derart intelligent und schnell 
erfolgen, daft sie effizient und einfach zu programmieren ist. 

20 

Bisherigre Technologien verwenden a) sehr kleine ALUs mit we- 
• nig Rekon figurationsunterstutzung(FPGAs) und sind. auf Bitebe- 
ne effizient, b) gro&e ALUs (Cameleon) mit wenig Rekonfigura- 
tionsunterstutzung, c) eine Mischung ajis groJien ALUs und 
25 kleinen ALUs mit Rekonf 'igur at ion sunt ers tilt zuiig und Datenver- 
waltung (VPUs) . 

Da die VPU-Technologie die leistungsfahigste Technik dar- 
stellt, soil auf ihr aufbauend ein optimiertes Verfahren ge- 
schaffen werden.. Es soil ausdrucklich darauf hingewiesen wer- 
30 den, daB dieses Verfahren ebenfalls fur die anderen Architek- 
turen eingesetzt werden kann. 
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Der Flachenaufwand zur effizienten Steuerung von Rekonfigura- 
tion ist mit einer Menge von ca. 10.000 bis 40.. 000 Gattern 
pro PAE vergleichsweise hoch. Unterhalb dieser Gattermenge 
lassen sich nur einfache Ablaufsteuerungen realsieren, die 
5 die Programmierbarkeit von VPUs erheblich einschranken und 
eine Verwendung als General Purpose Prozessor ausschlie&en . 
So fern auf eine besonders schnelle Rekonfiguration abgezielt 
wird, mussen zusatzliche Speicher vorgesehen werden r wodurch 
die erforderliche Gattermenge nochmals erheblich ansteigt. 

10 

• CSn ein ordentliches ' Verhaltnis . zwischen Rekohfigtirationsauf- 
wand und Re chenlei stung zu erhalten f ist somit der Einsatz 
von groBen ALUs (viel Funktionalitat und/oder groBe Bitbrei- 
te) zwingend erforderlich. Werden die ALUs jedoch zu groB , 
15 sinkt die nutzbare parallele Rechenleistung pro Chip. Bei zu 
kleinen ALUs (z.B. 4-bit) ist der Auf wand zur konfiguration 
aufwendiger Funktionen (z.B. 32-bit Multiplikation) zu hoch. 
Insbesondere der Verdrahtungsaufwand wachst in kommerziell 
nicht mehr sinnvolle Bereiche. 

20 

11.1 Einsatz von SIMP Rechenwerken 

Urn ein ideales Verhaltnis zwischen der Verarbeitung von klei- 
nen Bitbreiten, Verdrahtungsaufwand un<d der Konfiguration 

25 aufwendiger Funktionen zu erhalten, wird der Einsatz von 

SIMD-Rechenwerken vorgeschlagen. Dabei werden Rechenwerke der 
Breite m derart zerteilt, daB n einzelne Blocke der Breite b 
= m/n entstehen.. Durch Konfiguration wird je Rechenwerk vor- 
gegeben, ob ein Rechenwerk unzerteilt arbeiten soil, oder ob 

30 das Rechenwerk in einen oder mehrere Blocke r j.eweils gleicher 
oder unterschiedlicher Breite zerlegt sein soli. Mit anderen 
Worten, kann ein Rechenwerk auch derart zerlegt sein, daB in- 
nerhalb eines Rechenwerkes unterschiedliche Wortbreiten zu- 
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gleich konfigurlert sind (z.B. Breite 32-bit, zerlegt in 
1x16-, 1x8- und 2x4 -bit) . Die Daten werden derart zwischen 
den PAEs ubertragen, daJ3 die zerlegten Datenworte (SIMD-WORD) 
zu Datenworten der Bitbreite m zusammengefaBt werden und als 
5 Paket uber das Netzwerk ubertragen werden. 

Das Netzwerk ubertragt immer ein komplettes Paket, d.h. alle 
Datenworte sind innerhalb eines Paketes giiltig, und werden 
nach dem bekannte Handshake-Verfahren ubertragen. 

10 

11.1.1- Umsortier en -der SIMD-WORD 

Fur einen effizienten Einsatz der von SIMD-Rechenwerken ist 
eine flexible und effiziente Umsortierung der SIMD-WORD un- 
tereinander innerhalb eines Busses oder zwischen unterschied- 
15 lichen Bussen erforderlich. 

Die Busschalter nach Figur 5 bzw. 7b, c konnen derart modifi- 
ziert werden, daft eine flexible Vernetzung der einzelnen 
SIMD-WORD moglich ist. Dazu werden die Multiplexer entspre- 
chend den Rechenwerken teilbar ausgelegt, derart daR durch 
20 Konfiguration die Teilung bestimmt werden kann. Mit anderen 
Worten, wird beispielsweise nicht ein Multiplexer der Breite 
m. pro Bus verwendet, sondern n einzelhe- Multiplexer der Brei- 
te b = m/n. Es ist nunmehr moglich, die Datenbusse fur b bit 
Breite zu konfigurieren. Durch die Matrixstruktur der Busse 
25 (Figur 5) wird eine. einfache Umsortierung der Daten ermog- 
licht, wie in Figur 16c dargestellt. Eine erste PAE sendet 
Daten uber zwei Busse (1601, 1602) die in je 4 Teilbusse un- 
terteilt sind. Ein BUssystem (1603) verschaltet die einzelnen 
Teilbusse mit zusatzlichen auf dem Bus befindlichen Teilbus- 
30 se. Eine zweite PAE erhalt unterschiedlich sortierte Teilbus- 
se an ihren beiden Eingangsbussen (1604, 1605) . 
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Die Handshakes der Busse zwlschen zwei PAEs mit beispielswei- 
se 2-fach SIMD Rechenwerk (1614, 1615) werden in Figur 16a 
logisch derart verknupft, da& ein gemeinsamer Handshake 
(1610) fur den neu geordneten Bus (1611) aus den Handshakes 

5 der ursprunglichen Busse generiert wird. Beispielsweise kann 
ein RDY fur einen neu sortierten Bus aus einer logischen UND- 
Verknupfung aller RDYs der Da ten fur diesen Bus liefernden 
Busse generiert werden. Ebenso kann beispielsweise das ACK 
eines Da ten liefernden Busses aus einer OND-Verknupfung der 

10 ACKs aller Busse generiert werden, die die Daten weiterverar- 
beiten. 

Der gemeinsame Handshake steuert eine Steuereinheit (1613) 
fur die Verwaltung der PAE (1612) an. Der Bus 1611 wird PAE 
intern auf zwei Rechenwerke (1614, 1615) aufgeteilt. 

15 

In einer ersten Ausfuhrungsvariante finden die Verknupfungen 
der Handshakes innerhalb eines jeden Busknotens statt. Da- 
durch wird es moglich einem Bussystem der Breite m, bestehend 
aus n Teilbussen der Breite b, nur ein Handshake-Protokol zu- 
20 zuordnen. 

In einer weiteren besonders bevorzugten Ausgestaltung werden 
samtliche Bussysteme in der Breite b ausgestaltet, die die 
kleinste realislerbare Ein-/Ausgabe Dateiubreite b eines SIMD- 

25 Word entspricht. Entsprechend der Breite der PAE Datenpfade 

(m) besteht nunmehr ein Ein-/Ausgangsbus aus m/b = n Teilbus- 
sen der Breite b. Beispielsweise besitzt eine PAE mit 3 32bit 
Eingangsbussen und 2 32 bit Ausgangsbusse bei einer kleinsten 
SIMD-Wortbreite von 8 tatsachlich 3x4 8bit Eingangsbusse und 

30 2x4 8bit Ausgangsbusse . 

Jedem der Teilbusse sind samtliche Handshake- und Steuersi- 
gnale zugeordnet. 
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Der Ausgang einer PAE versendet die mit denselben Steuersi- 
gnalen fur samtliche n Teil-Busse. Eingehende Quittierungs- 
signale aller Teilbusse werden miteinander logische ver- 
knupft, z.B. durch eine UND-Funktion. Die Bussysteme konnen 

5 jeden Teilbus frei verschalten und unabhangig routen. Die 

Bus system und insbesondere die Busknoten verarbeiten und ver- 
knupfen die Handshake-Signale der einzelnen Busse unabhangig 
ihres Routings, ihrer Anordung und Sortierung nicht. 
Bei einer PAE eingehenden Daten werden die Steuersignale 

10 samtlicher n Teilbusse derart miteinander verkniipft, dass ein 
allgemeingultiges Steuersignal quasi . als \. Bussteue.rsignal- fur 
den Datenpfad generiert wird. 

Beispielsweise konnen in einer "dependend" Betriebsart gemati 
Definition RdyHold-Stufen fur jeden einzelnen Datenpfad ein- 
15 gesetzt werden und erst wenn samtliche RdyHold-Stufen anste- 
hende Daten signalisieren, werden diese von der PAE ubernom- 
men . 

In einer "independend" Betriebsart gemaB Definition werden 
die Daten jedes Teilbusses einzeln. in Eingangsregister der 

20 PAE geschrieben und quittiert, wodurch der Teilbus so fort fur 
eine nachste Datenilbertragung frei ist. Das Vorhandensein al- 
ler erforderlichen Daten von alien Teilbussen in den Ein- 
gangsregistern wird innerhalb der PAE durch geeignete logi- 
sche Verknupfung. der fur jeden Teilbus, im Eingangsregister 

25 gespeicherten RDY-Signale detektiert, woraufhin die PAE mit 
der Datenverarbeitung beginnt. 

Der wesentliche daraus resultierende Vorteil dieses Veffah- 
rens ist/ dass die SIMD-Eigenschaft Von. PAEs keinexlei beson- 
30 deren EinfluB a.uf das verwendete Bussystem aufweist. Es wer- 
den lediglich wie in Figur 16b dargestellt mehr Busse (n) 
(1620) einer geringeren Breite (b) und die zugeordneten 

Handshakes (1621) benotigt. Die Verschaltung selbst bleibt 
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unberilhrt. Die PAEs verkniipfen und verwalten die Steuerlei- 
tungen lokal. Dadurch entfallt der zusatzliche Hardwareauf- 
wand in den Bussystemen zur Verwaltung und/oder Verknupfung 
der Steuerleitungen . 
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5 



10 



Titel: Verfahren zur Steuerung der Ubertragung von 

Datenstromen 

15 

Patentanspriiche 

1. Verfahren zum Steuern von pipelineartigen Datenverarbei- 
tungen und/oder Bussystemen dadurch gekennzeichnet, dass 

20 abwechselnd unterschiedliche Protokolle angewendet werden, um 
eine Datenverarbeitung in jedem Takt zu ermoglichen. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass 
ein Protokoll die Annahme der Daten dyjrch einen Empfanger be- 

25 statigt. 

3. Verfahren nach Anspruch 1-2, dadurch gekennzeichnet, dass 
ein Protokoll die voraussichtliche Annahme der Daten durch 
einen Empfanger bestatigt. 

30 

4. Verfahren nach Anspruch 1-3, dadurch gekennzeichnet, dass 

wenn die fur eine voraussichtliche Abnahme bestatigten Daten 

durch einen Empfanger nicht angenommen werden konnen, diese 
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in ein Puf f erregister geschrieben werden und danach bis zur 
Entleerung des Puf f erregisters keine weitere voraussichtliche 
Datenannahme durch einen Empf anger mehr bestatigt wird. 

5 5. Verfahren nach Anspruch 1-4 , dadurch gekennzeichnet , dass 
das Puf f erregister sobald der Empfanger wieder Daten annimmt 
geleert wird, bevor weitere andere Daten an den Empfanger ge- 
sendet werden. 

10 6. Verfahren zum Ubertragen von Daten eines Senders an mehre- 
re Sender-/, dadurch gekennzeichnet, dass 

die Quittierung der Datenabnahme aller Sender logisch ver- 
knupft wird. 

15 7. Verfahren zum Ubertragen von Daten mehrerer Senders an ei- 
nen Sender, dadurch gekennzeichnet, dass 

die Reihenfolge der Ubertragungsanf orderungen mehrerer Sender 
gespeichert wird und die Ubertragung der Daten in der exakten 
Reihenfolge ermoglicht wird. 

20 

8 . Verfahren zum Ubertragen von Daten mehrerer Senders an ei- 
nen Sender, dadurch gekennzeichnet, dass 

jedem Sender bei einer erfolgten Buszugrif f sanf orderung eine 
Sendernummer zugeteilt wird, die seine* Position in der Reihe 
25 der Sender bezeichnet. 

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass 
der Reihe nach alle Sendernummern von einem Auf rufnuramernge- 
nerator aufgerufen werden, indem alien Sendern die aktuelle 

30 Aufruf snummer mitgeteilt wird, jeder Sender diese mit seiner 
Sendenummer vergleicht und bei Obereinstimmung den Bus bean- 
sprucht . 
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10. Verfahren nach Anspruch 8, dadurch gekennzeichnet , dass 
die Sendenuiranern pro Zeiteinheit weitergezahlt werden. 

11- Verfahren nach Anspruch 8-9, dadurch gekennzeichnet, dass 
5 der Bus arbitriert wird, wenn mehrere Sender dieselbe Sender- 
nummer zugeteilt haben. 

12. Verfahren nach Anspruch 8-9 und 11, dadurch gekennzeich- 
net, dass 

10 der Auf rufnummerngenerator erst weiterzahlt wenn kein Sender 
den' Bus* mehr arbitriert hat. 

13. Verfahren zum Verwalten von Datenstromen, dadurch gekenn- 
zeichnet, dass 

15 den Daten eine Kennung zugewiesen wird. 

14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass 
die Kennung eine zeitliche Reihenfolge festlegt. 

20 15. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass 
die Kennung eine Herkunfts- oder Zieladresse festlegt. 

15. Verfahren nach Anspruch 13-14 , dadurch gekennzeichnet,. 
dass 

25 anhand der Kennung das Zusammenfuhren der Daten in der ur- 
sprunglichen Reihenfolge mittels eines Bussystems definiert 
wird. 

17. Verfahren nach Anspruch 13-14, dadurch gekennzeichnet, 
. 30 dass 

anhand der Kennung das Zusammenf uhren der Daten in der ur- 
spriinglichen Reihenfolge mittels eines Speichers definiert 
wird. 
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18. Verfahren nach Anspruch 13-17 , dadurch gekennzeichnet, 
dass 

die Kennung iiber die peripheren Interface versendet wird. 

19. Verfahren nach Anspruch 13-17 r dadurch gekennzeichnet , 
dass 

die Kennung in Speicher zusammen mit den Daten geschrieben 
wird. 

20. Verfahren zum Partitioniern von Graphen, dadurch gekenn- 
zeichnet , dass 

an den Schnittkanten Speicher eingefugt werden. 

21. Verfahren nach Anspruch 20 , dadurch gekennzeichnet, dass 
je Kante eines Graphen ein Speicher verwendet wird. 

22. Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass 
Multiplexer mehrere Kant en vor einem Speicher zusammenf assen. 

23.. Verfahren nach. "Anspruch 20-22, dadurch gekennzeichnet, 
dass 

eine Kennung mit den Daten gespeichert wird. 

24. Verfahren zum Aufbau von Sequenzern aus mehreren PAEs, da- 
durch gekennzeichnet, dass 

die den Daten zugeordnete Kennung zur Adressierung von Daten- 
quellen und/oder Datenzielen dient. . 

25. Verfahren zum Aufbau von Sequenzern aus mehreren PAEs, da- 
durch gekennzeichnet, dass 

die den Daten zugeordnete Kennung den Datenverarbeitungbef ehl 
beinhaltet . 
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26. Pipelineartiges Datenverarbeitungsverfahren, dadurch ge- 
kennzeichnet, dass 

den Datenverarbeitungselementen FIFO-Puffer zur zeitlichen 
Entkopplung zwischengeschaltet sind. 

27. Verfahren nach Anspruch 26, dadurch gekennzeichnet, dass 
die FIFO-Puffer konf igurierbare Latenzzeiten aufweisen, urn Da- 
tenpfade. in ihrer Verzogerung auszubalancieren. 

28. FIFO-Speicherverfahren, dadurch gekennzeichnet , dass 
der Auslesevorgang bei einem fruher ausgelesenen Datenwort 
wieder auf genoiranen werden kann. 

29. FIFO-Speicherverfahren, dadurch gekennzeichnet, dass 

der Einschreibvorgang bei einem fruher eingeschriebenen Daten- 
wort wieder auf genoiranen werden kann. 

30. Verfahren nach Anspruch 28-29, dadurch gekennzeichnet, 
dass 

ein Sicherungsregister die Adressposition des Datenwortes si- 
chert, an des sen Adresse ein Vorgang wiederholt werden kann. 

31. Verfahren nach Anspruch 28-30, dadurch gekennzeichnet, 
dass 

der Leer- oder Vollzustand des FIFOs durch Vergleich mit dem 
Sicherungsregister getestet wird. 

32. Verfahren nach Anspruch 28-31, . dadurch gekennzeichnet,.. 
dass' 

das Sicherungregister. beliebig auf jede Adresse gesetzt werden 
kann. 
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